Група компаній АМ‑БІТС є визнаним експертом з інтеграції комплексних інфраструктурних рішень та систем керування великими даними на підприємстві.
Ми надаємо комплексні IT-рішення в напрямках мережевої інфраструктури, обробки та зберігання даних, віртуалізації, кібербезпеки, моніторингу ІТ систем та технічної підтримки.
Ми використовуємо останні напрацювання світових лідерів в галузі Big Data, AI, ML і IoT для побудови економічно ефективних програмно-апаратних рішень для фінансового сектора, мультимедійних, енергетичних, логістичних та виробничих компаній.
-
· 25 views · 6 applications · 6d
Data Engineer / Data Analyst (Airflow, Kafka, Python, PostgreSQL)
Hybrid Remote · Countries of Europe or Ukraine · Product · 3 years of experience · English - NoneПро роль AM-BITS шукає Data Engineer / Data Analyst для проєкту з великою агро-компанією. Роль поєднує побудову та підтримку надійних пайплайнів обробки даних і базову аналітику для перевірки якості, узгодження бізнес-логіки та підготовки даних до...Про роль
AM-BITS шукає Data Engineer / Data Analyst для проєкту з великою агро-компанією. Роль поєднує побудову та підтримку надійних пайплайнів обробки даних і базову аналітику для перевірки якості, узгодження бізнес-логіки та підготовки даних до подальшого використання. Основний фокус — розробка ETL/ELT-процесів, які приймають файли різних форматів, трансформують дані та завантажують їх у PostgreSQL.
Основні задачі та відповідальність
- Розробляти та підтримувати data pipelines для завантаження даних з файлів різних форматів (наприклад: CSV/Excel/JSON/XML/Parquet/GeoJSON/тощо) в PostgreSQL.
- Реалізовувати ETL/ELT-процеси: парсинг, нормалізація, збагачення, агрегації, підготовка вітрин/таблиць під бізнес-запити.
- Оркеструвати пайплайни в Apache Airflow: DAG-и, розклади, залежності, ретраї, алерти, backfill, параметризація.
- Використовувати Python для парсінгу, трансформацій, інтеграцій, автоматизації та перевірок даних.
- Працювати з Apache Kafka: розробка протоколу повідомлень, читання/публікація повідомлень, інтеграція подій у пайплайни, практичні знання топіків/партицій/консюмер-груп.
- Налаштовувати та оптимізувати завантаження у PostgreSQL: індекси, типи даних, транзакції, batch load, upsert/merge-логіка.
- Запроваджувати data quality перевірки: контроль повноти/валідності/унікальності, дедуплікація, контроль схем, ведення логів.
- Співпрацювати з бізнес-стейкхолдерами та командою проєкту: уточнення вимог, інтерпретація даних, документування джерел і трансформацій.
- Підтримувати документацію (опис джерел, мапінги, правила трансформацій, SLA для пайплайнів).
Вимоги (must-have)
- Досвід роботи з Python (функціональне та ООП програмування обробки та трансформації даних).
- Практичний досвід використання Apache Airflow (побудова DAG, базові оператори/сенсори, best practices), створення кастомізованих цепочок обробки.
- Розуміння ETL/ELT, принципів моделювання даних та життєвого циклу пайплайнів.
- Впевнена робота з PostgreSQL: SQL, проєктування таблиць, оптимізація запитів, завантаження великих обсягів.
- Розуміння Apache Kafka та комерційний досвід створення топіків та формату повідомлень.
- Розуміння різних форматів файлів та нюансів їх обробки (кодування, локалі, великі файли, інкрементальні завантаження).
Буде плюсом
- Docker, Linux, Git, CI/CD для data-проєктів.
- Досвід із data validation фреймворками
- Досвід роботи з агро-даними (поля/врожайність/техніка/елеватори/логістика) або з великими виробничими даними.
- Досвід потокової обробки (stream processing) або побудови near-real-time ingestion.
Ми пропонуємо
- Участь у реальному прикладному проєкті для агро-сектору з відчутним бізнес-ефектом.
- Прозорі задачі з фокусом на якість даних та стабільність пайплайнів.
- Командну взаємодію з інженерами та аналітиками AM-BITS, можливість впливати на технічні рішення.