Middle Data Engineer / Python Developer (AgriTech)
Про роль:
Ви будете ключовим гравцем у нашій команді, відповідальним за створення та підтримку ефективної інфраструктури даних для наших AI/ML пайплайнів. Ваша робота буде зосереджена на забезпеченні безперебійного потоку даних, їх валідації, оптимізації коду та підготовці моделей до деплою у співпраці з командою DevOps.
Що ми пропонуємо:
- Гідний рівень оплати
- Щорічне підвищення оплати праці в рамках перегляду рівня зарплат по компанії
- Чіткі умови для отримання бонусів, які не залежать від коливань ринку чи зовнішніх факторів
- Програму «Завжди поруч» — додаткові авансові виплати у розмірі середньомісячної зарплати на запит співробітника.
- Безперервний професійний розвиток через розгалужену систему фахового навчання — дистанційні та офлайн тренінги і навчальні курси
- Проєкт з турботи про себе та власне ментальне здоров’я «Життєстійкість. Сила в Тобі» — турбота про фізичне здоров’я, ментальне здоров’я, соціальні відносини, творчість
- Безкоштовну анонімну підтримку професійного психолога
- Можливість долучитися до корпоративних волонтерів і відвідувати поранених у госпіталях з пакунками «Відновлення» від Кернел
- Працювати в Компанії, яка системно і масштабно підтримує Сили Оборони України
Ваші основні обов’язки:
- Автоматизація ML-пайплайнів: Впровадження та підтримка автоматизації всіх етапів життєвого циклу ML-моделей, від збору даних до підготовки до деплою, з метою мінімізації ручного втручання та прискорення процесів.
- Збір та інжестінг даних: Розробка, підтримка та оптимізація пайплайнів для збору сирих даних з різноманітних джерел (супутникові зображення, метеодані, мобільний скаутинг, інші бази даних).
- Валідація та якість даних: Впровадження автоматизованих систем перевірки якості, цілісності та відповідності даних схемі (data schema skews, data values skews) для забезпечення високої достовірності даних для навчання моделей. Допомога у забезпеченні загальної якості, консистентності та надійності даних.
- Тестування та налагодження: Розробка та проведення тестів (юніт, інтеграційні, тести якості даних та моделей) для забезпечення надійності та коректності компонентів ML-пайплайнів. Налагодження проблем, що виникають.
- Оптимізація ресурсів: Моніторинг та оптимізація використання обчислювальних ресурсів (CPU, GPU, пам’ять, сховище) для ефективного навчання та інференсу ML-моделей.
- Оптимізація коду: Покращення продуктивності та ефективності Python-коду, що використовується для обробки даних, feature engineering та ML-моделей. Проведення код-рев’ю, покращення існуючої системи та впровадження best practices в інженерних процесах.
- Підготовка API для моделей: Сприяння та участь у підготовці API для інтеграції ML-моделей у продакшн-середовище (у співпраці з командою DevOps).
- Зберігання даних: Участь у проектуванні та управлінні рішеннями для зберігання великих обсягів даних, включаючи ембедінги від Foundation моделей.
Ми очікуємо від вас:
- Досвід роботи: 2+ роки досвіду роботи на позиції Data Engineer, Python Developer або схожій ролі.
- Мови програмування: Відмінне знання Python та досвід роботи з бібліотеками для обробки даних (Pandas, NumPy).
- Інтеграція API: Досвід інтеграції RESTful API для витягування або відправлення даних.
- Тестування: Досвід написання юніт-тестів та інтеграційних тестів для коду.
- Основи ML: Базове розуміння життєвого циклу ML-моделей та їх компонентів. Знайомство з ML-фреймворками та інструментами (наприклад, TensorFlow, PyTorch, scikit-learn) та їх вимогами до даних.
- Бази даних: Досвід роботи з SQL та розуміння принципів роботи з реляційними та NoSQL базами даних.
- Пайплайни даних: Розуміння та досвід побудови ETL/ELT пайплайнів.
- Якість даних: Досвід впровадження механізмів валідації та контролю якості даних.
- Хмарні платформи: Загальне розуміння принципів роботи з хмарними провайдерами (AWS, Google Cloud Platform або Azure).
- Комунікація: Здатність ефективно взаємодіяти з дата-сайєнтистами та командою DevOps.
Буде плюсом:
- Досвід роботи з інструментами MLOps (Docker, Kubeflow, MLflow, Airflow, DVC).
- Досвід роботи з великими даними (Apache Spark, Kafka).
- Досвід роботи з геопросторовими даними та супутниковими знімками.
- Знайомство з концепціями Foundation Models та ембедінгів.
- Досвід роботи з ArcGIS або іншими геоінформаційними системами (ГІС).
- Досвід розгортання та адміністрування баз даних.
- Досвід роботи з Feature Store.
- Досвід розробки DWH / Data Lake-рішень.
- Безпека даних: Знання best practices у сфері конфіденційності, безпеки та відповідності нормативним вимогам при роботі з аерофотознімками або чутливими даними.
📊
Average salary range of similar jobs in
analytics →
Loading...