Kernel

Middle Data Engineer / Python Developer (AgriTech)

Про роль:

Ви будете ключовим гравцем у нашій команді, відповідальним за створення та підтримку ефективної інфраструктури даних для наших AI/ML пайплайнів. Ваша робота буде зосереджена на забезпеченні безперебійного потоку даних, їх валідації, оптимізації коду та підготовці моделей до деплою у співпраці з командою DevOps.

Що ми пропонуємо:

  • Гідний рівень оплати
  • Щорічне підвищення оплати праці в рамках перегляду рівня зарплат по компанії
  • Чіткі умови для отримання бонусів, які не залежать від коливань ринку чи зовнішніх факторів
  • Програму «Завжди поруч» — додаткові авансові виплати у розмірі середньомісячної зарплати на запит співробітника.
  • Безперервний професійний розвиток через розгалужену систему фахового навчання — дистанційні та офлайн тренінги і навчальні курси
  • Проєкт з турботи про себе та власне ментальне здоров’я «Життєстійкість. Сила в Тобі» — турбота про фізичне здоров’я, ментальне здоров’я, соціальні відносини, творчість
  • Безкоштовну анонімну підтримку професійного психолога
  • Можливість долучитися до корпоративних волонтерів і відвідувати поранених у госпіталях з пакунками «Відновлення» від Кернел
  • Працювати в Компанії, яка системно і масштабно підтримує Сили Оборони України

Ваші основні обов’язки:

  • Автоматизація ML-пайплайнів: Впровадження та підтримка автоматизації всіх етапів життєвого циклу ML-моделей, від збору даних до підготовки до деплою, з метою мінімізації ручного втручання та прискорення процесів.
  • Збір та інжестінг даних: Розробка, підтримка та оптимізація пайплайнів для збору сирих даних з різноманітних джерел (супутникові зображення, метеодані, мобільний скаутинг, інші бази даних).
  • Валідація та якість даних: Впровадження автоматизованих систем перевірки якості, цілісності та відповідності даних схемі (data schema skews, data values skews) для забезпечення високої достовірності даних для навчання моделей. Допомога у забезпеченні загальної якості, консистентності та надійності даних.
  • Тестування та налагодження: Розробка та проведення тестів (юніт, інтеграційні, тести якості даних та моделей) для забезпечення надійності та коректності компонентів ML-пайплайнів. Налагодження проблем, що виникають.
  • Оптимізація ресурсів: Моніторинг та оптимізація використання обчислювальних ресурсів (CPU, GPU, пам’ять, сховище) для ефективного навчання та інференсу ML-моделей.
  • Оптимізація коду: Покращення продуктивності та ефективності Python-коду, що використовується для обробки даних, feature engineering та ML-моделей. Проведення код-рев’ю, покращення існуючої системи та впровадження best practices в інженерних процесах.
  • Підготовка API для моделей: Сприяння та участь у підготовці API для інтеграції ML-моделей у продакшн-середовище (у співпраці з командою DevOps).
  • Зберігання даних: Участь у проектуванні та управлінні рішеннями для зберігання великих обсягів даних, включаючи ембедінги від Foundation моделей.

Ми очікуємо від вас:

  • Досвід роботи: 2+ роки досвіду роботи на позиції Data Engineer, Python Developer або схожій ролі.
  • Мови програмування: Відмінне знання Python та досвід роботи з бібліотеками для обробки даних (Pandas, NumPy).
  • Інтеграція API: Досвід інтеграції RESTful API для витягування або відправлення даних.
  • Тестування: Досвід написання юніт-тестів та інтеграційних тестів для коду.
  • Основи ML: Базове розуміння життєвого циклу ML-моделей та їх компонентів. Знайомство з ML-фреймворками та інструментами (наприклад, TensorFlow, PyTorch, scikit-learn) та їх вимогами до даних.
  • Бази даних: Досвід роботи з SQL та розуміння принципів роботи з реляційними та NoSQL базами даних.
  • Пайплайни даних: Розуміння та досвід побудови ETL/ELT пайплайнів.
  • Якість даних: Досвід впровадження механізмів валідації та контролю якості даних.
  • Хмарні платформи: Загальне розуміння принципів роботи з хмарними провайдерами (AWS, Google Cloud Platform або Azure).
  • Комунікація: Здатність ефективно взаємодіяти з дата-сайєнтистами та командою DevOps.

Буде плюсом:

  • Досвід роботи з інструментами MLOps (Docker, Kubeflow, MLflow, Airflow, DVC).
  • Досвід роботи з великими даними (Apache Spark, Kafka).
  • Досвід роботи з геопросторовими даними та супутниковими знімками.
  • Знайомство з концепціями Foundation Models та ембедінгів.
  • Досвід роботи з ArcGIS або іншими геоінформаційними системами (ГІС).
  • Досвід розгортання та адміністрування баз даних.
  • Досвід роботи з Feature Store.
  • Досвід розробки DWH / Data Lake-рішень.
  • Безпека даних: Знання best practices у сфері конфіденційності, безпеки та відповідності нормативним вимогам при роботі з аерофотознімками або чутливими даними.
Published 5 August
33 views
·
2 applications
100% read
·
100% responded
Last responded 4 weeks ago
To apply for this and other jobs on Djinni login or signup.
Loading...