Data Engineer
Мрія — державна освітня екосистема для учнів, батьків/опікунів і вчителів, що надихає вчитися та допомагає знайти себе в сучасному світі. Це ініціатива Президента України Володимира Зеленського, яку реалізують Мінцифри та МОН за підтримки Програми EGAP, що виконується Фондом Східна Європа коштом Швейцарії. Якщо хочете бути в команді тих, хто змінює підхід до освіти, — хутчіш відгукуйтеся на вакансію!
Шукаємо людину в команду, яка допоможе нам масштабувати та вдосконалити нашу інфраструктуру даних у DWH, працюючи разом із продуктовою, аналітичною та інженерною командами.
Ключовий виклик — побудувати стабільну, масштабовану та економічно ефективну дата-інфраструктуру, яка дозволить продуктам швидко запускати аналітику, тестувати гіпотези та приймати рішення на основі даних.
Основна мета — забезпечити повний цикл обробки даних: від інтеграції з зовнішніми джерелами та побудови пайплайнів до зручної аналітичної звітності на основі якісних даних в DWH.
Наша команда шукає людину, яка:
- Має досвід роботи на позиції Data Engineer від 2 років, включно з побудовою, оптимізацією та підтримкою дата-пайплайнів у хмарному середовищі
- Розуміється на архітектурі Data Warehouse та має практичний досвід із Google Cloud Platform (BigQuery, Cloud Storage, Dataflow, Pub/Sub, Cloud Composer)
- Уміє будувати ETL/ELT процеси з урахуванням масштабованості, fault-tolerance і оптимізації вартості
- Володіє навичками написання чистого, тестованого та підтримуваного коду на Python (або іншій мові для обробки даних)
- Уміє працювати в команді, має досвід участі в крос-функціональних проєктах разом з аналітиками, продуктологами та інженерами
- Має навички роботи з CI/CD (наприклад, GitHub Actions, Cloud Build), моніторингом процесів (Stackdriver, Grafana) та налаштуванням алертів
Також буде перевагою, якщо ви маєте досвід із:
- Взаємодією з Data Science командою — це підтримка пайплайнів для тренування та деплою моделей, підготовка фічевих датасетів, забезпечення відтворюваності експериментів
- Побудовою пайплайнів для поставки даних для ML-моделей та наповнення feature stores
- Роботою з графовими базами даних (наприклад, Neo4j) для побудови онтологій та графів знань
- Інтеграцією з vector stores (Qdrant, Pinecone, FAISS тощо) для зберігання ембедінгів та пошуку
- Пайплайнами А/Б тестів, зокрема з точки зору трекінгу, збору, обробки й аналітики результатів експериментів
- Використанням LLM моделей або їх провайдерів (OpenAI, Gemini тощо) для виділення ознак та обробки текстів
Чим ви будете займатися:
- Проводити інтеграцію даних із зовнішніх джерел (API, SQL, CSV, JSON тощо) у нашу DWH-архітектуру на базі GCP
- Пропонувати рішення для оптимізації наявних пайплайнів та структури збереження даних, щоб зменшити витрати та пришвидшити обробку
- Підтримувати стабільність і безперервність роботи пайплайнів, автоматизувати їх моніторинг і логування
- Співпрацювати з іншими відділами, щоб забезпечити коректну інтеграцію подій, трекінгу, звітів та моделей машинного навчання
- Планувати масштабування інфраструктури для підтримки зростаючих обсягів даних та нових продуктів
- Готувати документацію по dataflow, схемах таблиць, політиках доступу та специфікаціях API для розробників та аналітиків
Ваша робота в команді Мрії:
- Повна зайнятість
- Перші два місяці — робота в офісі (є укриття), після — гібридний графік
- Офіційне працевлаштування
- Робота над по-справжньому важливим для України проєктом
- Команда Мрії в прямому сенсі цього слова
Етапи найму: співбесіда з HR (30 хв) —> технічна співбесіда з live coding сесією (90 хв) —> кадрова перевірка —> фінальна співбесіда (15 хв)
Якщо це не для вас, але ви знаєте людину, яка створена для цієї вакансії, — порекомендуйте, будь ласка!