Data Scientist (NLP/LLM)
Join Sigma Software’s Data Competency Center as a Data Scientist focused on Generative AI & Agent Systems. You'll be a key player in implementing, building, and helping to ship production-ready GenAI systems - spanning text, vision, and structured data - that tackle real-world business challenges while adhering to enterprise standards for quality, security, and compliance.
You’ll work closely with senior Data Scientists and client teams from solution design through to deployment. Your primary focus will be on the hands-on implementation of the GenAI stack, including building agentic workflows and advanced Retrieval-Augmented Generation (RAG) systems. This role is a fantastic blend of hands-on model work, system implementation, and gaining technical exposure to the full solution lifecycle.
RESPONSIBILITIES:
- Translate business requirements into functional AI systems (e.g., intelligent assistants, copilots, simple autonomous agents) with defined quality and performance metrics
- Build and implement cutting-edge RAG systems ("RAG 2.0"), focusing on:
- Implementing hybrid retrieval (vector, keyword) and structured data retrieval methods
- Designing and testing effective chunking strategies and embedding models
- Implementing memory and conversational history management for agents - Develop effective prompt engineering techniques and data pipelines to efficiently utilize long-context models for document-heavy use cases
- Contribute to the evaluation and selection of models (proprietary APIs vs. open-weight models) based on performance, cost, and deployment requirements
- Implement production elements of the GenAI stack: data handling, prompt orchestration (e.g., using frameworks), tracing, and caching for performance
REQUIREMENTS:
- Professional Experience: 1.5 to 3 years of hands-on professional experience in a Data Science, Machine Learning, or AI/Software Engineering role, with significant focus on Generative AI or related NLP/Search technologies in the last 12-18 months
- Programming Proficiency: Python
- GenAI Stack Experience: Hands-on experience with at least one major orchestration framework (e.g., LangChain, LlamaIndex)
- Search & Retrieval Expertise: Practical experience implementing vector databases, creating embeddings, and designing indexing and chunking strategies for RAG systems
- Data Fluency: Solid understanding of SQL and data modeling; practical experience handling and transforming unstructured data
- LLMOps Fundamentals: Familiarity with the principles and tooling for experiment tracking, version control for prompts/pipelines, and tracing/observability in an LLM context
- Demonstrated Ability: A strong portfolio or track record showing the successful implementation (in production or advanced project settings) of Generative AI components
- Upper-Intermediate level of English
WOULD BE A PLUS:
- Experience or deep interest in agentic design patterns and multi-step reasoning
- Familiarity with foundational MLOps tools for CI/CD and production deployment
- Familiarity with coding assistants like Cursor, Copilot, Claude Code, Windsurf, etc.
- Exposure to multimodal applications (text/image/video/audio)
- Academic background or practical experience in core Machine Learning and Deep Learning concepts
Долучайся до Data Competency Center в компанії Sigma Software в ролі Data Scientist із фокусом на генеративний ШІ та агентні системи. Ти станеш ключовим гравцем у впровадженні, розробці та запуску у продакшн GenAI-систем - для роботи з текстом, зображеннями та структурованими даними - які вирішують реальні бізнес-завдання, дотримуючись корпоративних стандартів якості, безпеки та відповідності нормам.
Ти працюватимеш пліч-о-пліч із досвідченими спеціалістами Data Science та командами клієнтів на всіх етапах - від проєктування рішень до розгортання. Основний фокус - практична реалізація GenAI-стеку, включно зі створенням агентних робочих процесів та передових систем RAG (генерація доповнена результатами пошуку). Ця роль поєднує роботу з моделями, впровадження систем та можливість отримати досвід у повному життєвому циклі рішень.
ОБОВ'ЯЗКИ:
- Перетворення бізнес-вимоги на функціональні AI-рішення (інтелектуальні асистенти, копілоти, прості автономні агенти) з чіткими метриками якості та продуктивності
Розробка та впровадження передових RAG-систем («RAG 2.0»), зокрема:
- Впровадження гібридного пошуку (векторний, ключові слова) та методів роботи зі структурованими даними
- Проєктування та тестування стратегій фрагментації та моделей ембедингів
- Реалізація управління пам’яттю та історією діалогів для агентів
- Розробка ефективних технік створення промптів та конвеєрів даних для роботи з моделями з довгим контекстом у сценаріях з великою кількістю документів
- Участь в оцінці та виборі моделей (пропрієтарні API чи моделі з відкритими вагами) з урахуванням продуктивності, вартості та вимог до розгортання
- Реалізація робочих компонентів GenAI-стеку: обробка даних, оркестрація промптів (наприклад, з використанням фреймворків), відстеження та кешування для підвищення продуктивності
ВИМОГИ:
- Професійний досвід: 1,5–3 роки практичного досвіду на позиції Data Scientist, інженер з Machine Learning або ШІ-інженер, розробник, із фокусом на генеративний ШІ або суміжні NLP/Search-технології протягом останніх 12–18 місяців
- Програмування: Python
- Досвід роботи з GenAI-стеком: практичний досвід із хоча б одним основним оркестраційним фреймворком (наприклад, LangChain, LlamaIndex).
- Пошук і витяг даних: досвід впровадження векторних баз, створення ембедингів, проєктування стратегій індексації та фрагментації для RAG-систем
- Робота з даними: хороше розуміння SQL і моделювання даних; практичний досвід обробки та трансформації неструктурованих даних
- Основи LLMOps: знання принципів і інструментів для відстеження експериментів, контролю версії для промптів/конвеєрів, відстеження та спостережуваності в контексті LLM
- Доведені здібності: портфоліо або приклади успішної реалізації компонентів генеративного ШІ (у робочих або просунутих проєктних середовищах)
- Англійська: рівень Upper-Intermediate
БУДЕ ПЛЮСОМ:
- Досвід або глибокий інтерес до агентних шаблонів проєктування і багатокрокового міркування
- Знання базових інструментів MLOps для CI/CD та розгортання в робочих середовищах
- Знайомство з кодовими асистентами, такими як Cursor, Copilot, Claude Code, Windsurf тощо
- Досвід роботи з мультимодальними застосунками (текст/зображення/відео/аудіо)
- Науковий або практичний досвід у Machine Learning та Deep Learning
Required skills experience
Python | 3 years |
GenAI | 3 years |
SQL | 3 years |
LLM | 2 years |
NLP | 2 years |
Required languages
English | B2 - Upper Intermediate |