Data Engineer / Data Analyst (Airflow, Kafka, Python, PostgreSQL)
Про роль
AM-BITS шукає Data Engineer / Data Analyst для проєкту з великою агро-компанією. Роль поєднує побудову та підтримку надійних пайплайнів обробки даних і базову аналітику для перевірки якості, узгодження бізнес-логіки та підготовки даних до подальшого використання. Основний фокус — розробка ETL/ELT-процесів, які приймають файли різних форматів, трансформують дані та завантажують їх у PostgreSQL.
Основні задачі та відповідальність
- Розробляти та підтримувати data pipelines для завантаження даних з файлів різних форматів (наприклад: CSV/Excel/JSON/XML/Parquet/GeoJSON/тощо) в PostgreSQL.
- Реалізовувати ETL/ELT-процеси: парсинг, нормалізація, збагачення, агрегації, підготовка вітрин/таблиць під бізнес-запити.
- Оркеструвати пайплайни в Apache Airflow: DAG-и, розклади, залежності, ретраї, алерти, backfill, параметризація.
- Використовувати Python для парсінгу, трансформацій, інтеграцій, автоматизації та перевірок даних.
- Працювати з Apache Kafka: розробка протоколу повідомлень, читання/публікація повідомлень, інтеграція подій у пайплайни, практичні знання топіків/партицій/консюмер-груп.
- Налаштовувати та оптимізувати завантаження у PostgreSQL: індекси, типи даних, транзакції, batch load, upsert/merge-логіка.
- Запроваджувати data quality перевірки: контроль повноти/валідності/унікальності, дедуплікація, контроль схем, ведення логів.
- Співпрацювати з бізнес-стейкхолдерами та командою проєкту: уточнення вимог, інтерпретація даних, документування джерел і трансформацій.
- Підтримувати документацію (опис джерел, мапінги, правила трансформацій, SLA для пайплайнів).
Вимоги (must-have)
- Досвід роботи з Python (функціональне та ООП програмування обробки та трансформації даних).
- Практичний досвід використання Apache Airflow (побудова DAG, базові оператори/сенсори, best practices), створення кастомізованих цепочок обробки.
- Розуміння ETL/ELT, принципів моделювання даних та життєвого циклу пайплайнів.
- Впевнена робота з PostgreSQL: SQL, проєктування таблиць, оптимізація запитів, завантаження великих обсягів.
- Розуміння Apache Kafka та комерційний досвід створення топіків та формату повідомлень.
- Розуміння різних форматів файлів та нюансів їх обробки (кодування, локалі, великі файли, інкрементальні завантаження).
Буде плюсом
- Docker, Linux, Git, CI/CD для data-проєктів.
- Досвід із data validation фреймворками
- Досвід роботи з агро-даними (поля/врожайність/техніка/елеватори/логістика) або з великими виробничими даними.
- Досвід потокової обробки (stream processing) або побудови near-real-time ingestion.
Ми пропонуємо
- Участь у реальному прикладному проєкті для агро-сектору з відчутним бізнес-ефектом.
- Прозорі задачі з фокусом на якість даних та стабільність пайплайнів.
- Командну взаємодію з інженерами та аналітиками AM-BITS, можливість впливати на технічні рішення.
Required skills experience
| PostgreSQL | 3 years |
| Apache Airflow | 2 years |
| Apache Kafka | 1 year |
| Python | 1.5 years |
Required languages
ETL/ELT, IoT
Published 20 January
8 views
·
0 applications
📊
Average salary range of similar jobs in
analytics →
Loading...