Data Engineer / ML Engineer/MLOps Offline
Ця роль передбачає повну відповідальність за побудову, підтримку та оптимізацію інфраструктури і пайплайнів для Large Language Models (LLM) на фізичних серверах, включно з автоматичним перенавчанням, версіонуванням та моніторингом моделей. Ваша робота дасть можливість команді дослідників та розробників моделей ефективно будувати, тестувати й впроваджувати нові ML-рішення.
Вимоги до кандидата
- Досвід роботи
- Комерційний досвід (5+ років) як Data Engineer, ML Engineer або MLOps, бажано з фокусом на текстові LLM
- Стек технологій
- Обов’язково:
- Kafka – проєктування стрімінгових архітектур, розгортання та супровід.
- Elasticsearch – налаштування, індексування, оптимізація пошуку, робота з аналітикою.
- PostgreSQL – адміністрування, оптимізація, робота з великими обсягами даних.
- CI/CD – будь-які популярні інструменти (GitLab CI, Jenkins, GitHub Actions, тощо).
- Бажані навички:
- Інструменти контейнеризації (Docker) і оркестрації (Kubernetes, Nomad, Slurm для HPC і т.ін.).
- Оркестратори (Airflow, Prefect, Luigi).
- MLflow, DVC чи інші для трекінгу версій моделей.
- Системи моніторингу та логування (Prometheus, Grafana, ELK-стек, Splunk).
- Інфраструктурні інструменти (Ansible, Terraform — для конфігурацій, якщо є потреба).
- Обов’язково:
- Знання ML-процесів
- Базове розуміння циклу розробки моделей (тренування, валідація, деплоймент, моніторинг), навіть якщо основний фокус – інфраструктура.
- Досвід інтеграції ML-моделей у продакшн середовище.
Обов’язки на посаді:
- Побудова інфраструктури для LLM
- Розгортання та підтримка середовища для тренування й розгортання LLM на фізичних серверах (GPU-кластери, спеціалізовані апаратні рішення).
- Організація системи зберігання великих обсягів даних (Data Lake/Data Warehouse) з використанням PostgreSQL, Elasticsearch або інших рішень (HDFS чи аналогів, якщо потрібно).
- Розробка та підтримка Data/ML пайплайнів
- Втілення (імплементація) готової логіки, яку розробляє інша особа, у вигляді робочих конвеєрів (pipelines) для збору, очищення та перетворення даних, у тому числі стрімінгу (Kafka)..
- Впровадження пайплайнів для підготовки даних, тренування моделей, валідації, а також автоматизованого деплойменту (CI/CD).
- Автоматичне перенавчання моделей (retraining), контроль версій (model registry) та управління конфігураціями.
- Оркестрація
- Впровадження та налаштування оркестраторів (Airflow, Prefect або Luigi) для автоматизації та відстеження стану усіх Data/ML процесів.
- Проектування та впровадження workflow для комплексних ETL/ELT задач і процесів перенавчання моделей.
- Версіонування та моніторинг моделей
- Організація процесу зберігання й відстеження версій моделей (MLflow, DVC чи інші системи).
- Налаштування логування, моніторингу продуктивності (Prometheus, Grafana або інші інструменти), а також алертингу у випадку деградації моделі.
- Інтеграція та CI/CD
- Налаштування безперервної інтеграції (CI) та безперервного розгортання (CD) для ML-проєктів: автоматичне тестування, перевірка якості даних, деплоймент на стенди.
- Оптимізація й перенесення моделей у продуктивне середовище з використанням контейнеризації (Docker) та, за потреби, оркестрації (Kubernetes чи подібних рішень).
- Архітектура даних та безпека
- Проектування високодоступної та відмовостійкої інфраструктури з використанням фізичних серверів, RAID-масивів, бекап-планів.
- Контроль доступу до даних та шифрування, дотримання вимог безпеки при роботі з конфіденційною інформацією.
- Оптимізація та масштабування
- Тюнінг продуктивності баз даних (PostgreSQL, Elasticsearch) та стрімінгових рішень (Kafka).
- Оптимізація пайплайнів під специфіку LLM (великий обсяг текстових даних, потреба у паралелізації тощо).
- Проведення тестів на стрес-навантаження та вирішення питань масштабування на рівні апаратури й мережі.
- Співпраця з командою
- Тісна взаємодія з Data Scientists, які відповідають за архітектуру та розробку самих моделей.
- Консультування щодо кращих практик роботи з даними, інфраструктурою та оркестрацією.
- Документація та knowledge sharing
- Ведення детальної технічної документації з налаштування та підтримки інфраструктури.
Ми пропонуємо:
- Повністю віддалений формат роботи (кандидати з Києва можуть працювати в офісі з генераторами за бажанням).
- Офіційне оформлення зі 100% покриттям податків в компанію-резидента Дія.City (трудовий договір або гіг-контракт).
- Відсутність тайм-трекерів і гнучкий графік роботи (починаємо в період з 9 до 10 ранку, 8-ми годинний робочий день).
- Роботу з цікавими та корисними проєктами для України та Європи.
- Відсутність мікроменеджменту, лояльність та взаємоповагу.
Додатково:
- Медичне страхування після 3 місяців оплачуваного випробувального терміну
Компенсація корпоративного навчання англійської мови — 50%
Етапи найму: Короткий колл з HR менеджером (до 30 хв.) → технічна співбесіда (1,5 год) → пропозиція
The job ad is no longer active
Look at the current jobs ML / AI →
📊
$4000-6500
Average salary range of similar jobs in
analytics →
Similar jobs
Countries of Europe or Ukraine
Countries of Europe or Ukraine
to $4000
Worldwide