Jobs Vinnytsia
3-
· 43 views · 1 application · 8d
Junior/Middle Data engineer (IRC274101)
Hybrid Remote · Ukraine (Vinnytsia, Zhytomyr, Ivano-Frankivsk + 7 more cities) · 2 years of experience · Upper-IntermediateJob Description Strong experience in data pipeline development and ETL/ELT processes. Proficiency with Apache Airflow for workflow orchestration. Hands-on experience with object storage solutions, preferably MinIO. Expertise in SQL and database...Job Description
- Strong experience in data pipeline development and ETL/ELT processes.
- Proficiency with Apache Airflow for workflow orchestration.
- Hands-on experience with object storage solutions, preferably MinIO.
- Expertise in SQL and database management, specifically PostgreSQL.
- Experience with graph databases like Neo4j.
- Familiarity with vector databases such as Qdrant.
- Ability to work with large, diverse datasets and ensure data integrity.
- Solid expertise in SQL and relational DBs
- Experience in database design and optimization
- Experience with NoSQL DBs (MongoDB, Cosmos, etc.) for handling unstructured and semi-structured data
Contributing to release management following the best CI/CD practices
Job Responsibilities
- Design, develop, and maintain robust and scalable data pipelines for ingesting, transforming, and loading diverse datasets.
- Implement ETL/ELT processes to cleanse, validate, and enrich raw data into query-optimized formats.
- Orchestrate data workflows using Apache Airflow, including scheduling jobs and managing dependencies.
- Manage and optimize data storage solutions in MinIO (object storage), PostgreSQL (relational data).
- Ensure data integrity, quality, and compliance throughout the data lifecycle.
- Collaborate with cross-functional teams to understand data requirements and deliver data solutions that enable advanced analytics and AI/ML initiatives.
- Troubleshoot and resolve data-related issues, ensuring high availability and performance of data systems.
Department/Project Description
Our client is focused on developing a robust and versatile data ingestion pipeline and associated schema designed to efficiently and accurately collect, process, analyze, and manage diverse data types from various sources in real-time or near real-time.This pipeline will automate and enhance data workflows, ensure data quality, and support advanced analytical capabilities including NLP, Face Recognition, and OCR.
As a Middle Data Engineer on the project, you will play a crucial role in managing deployment, infrastructure, automation, and monitoring. You will be instrumental in setting up and maintaining CI/CD pipelines, managing cloud resources, ensuring system stability and performance, and implementing robust logging and alerting mechanisms for the client platform.If you seek a challenge and want to impact the way the world distributes products from manufacturers to store shelves, we invite you to join our team.
More -
· 17 views · 0 applications · 8d
Middle/Senior Data Engineer (IRC274051)
Hybrid Remote · Ukraine (Vinnytsia, Ivano-Frankivsk, Kyiv + 7 more cities) · 3 years of experience · Upper-IntermediateJob Description - 3+ years of intermediate to advanced SQL - 3+ years of Python development (intermediate level is fine: Pandas, Numpy, boto3, seaborn, requests, unittest) - Experience building ETLs, preferably in python - Experience with data tools (ex.:...Job Description
- 3+ years of intermediate to advanced SQL
- 3+ years of Python development (intermediate level is fine: Pandas, Numpy, boto3, seaborn, requests, unittest)
- Experience building ETLs, preferably in python
- Experience with data tools (ex.: Airflow, Grafana, AWS Glue, AWS Athena)
- Excellent understanding of database design
- Cloud expereince (AWS S3, Lambda, or alternatives)
- Agile SDLC knowledge
- Detail-oriented
- Data-focused
- Strong verbal/written communication and data presentation skills, including an ability to effectively communicate with both business and technical teams
- An ability and interest in working in a fast-paced and rapidly changing environment
- Be self-driven and show ability to deliver on ambiguous projects with incomplete or dirty dataWould be a plus:
- Understanding of basic SVOD store purchase workflows
- Background in supporting data scientists in conducting data analysis / modelling to support business decision making- Experience in supervising subordinate staff
Job Responsibilities
- Data analysis, auditing, statistical analysis
- ETL buildouts for data reconciliation
- Creation of automatically-running audit tools
- Interactive log auditing to look for potential data problems
- Help in troubleshooting customer support team cases
- Troubleshooting and analyzing subscriber reporting issues:
Answer management questions related to subscriber count trends
App purchase workflow issues
Audit/reconcile store subscriptions vs userdbDepartment/Project Description
Customer is one of the biggest companies on the market of home entertainment consumer electronics devices that strives to provide their clients with high-quality products and services.
This position collaborates with a geographically diverse team to develop, deliver, and maintain systems for digital subscription and transactional products across the Customer’ SVOD portfolio.
More -
· 34 views · 2 applications · 30d
Middle Data Engineer / Python Developer (AgriTech)
Hybrid Remote · Ukraine (Vinnytsia, Dnipro, Zhytomyr + 3 more cities) · Product · 3 years of experience · IntermediateПро роль: Ви будете ключовим гравцем у нашій команді, відповідальним за створення та підтримку ефективної інфраструктури даних для наших AI/ML пайплайнів. Ваша робота буде зосереджена на забезпеченні безперебійного потоку даних, їх валідації, оптимізації...Про роль:
Ви будете ключовим гравцем у нашій команді, відповідальним за створення та підтримку ефективної інфраструктури даних для наших AI/ML пайплайнів. Ваша робота буде зосереджена на забезпеченні безперебійного потоку даних, їх валідації, оптимізації коду та підготовці моделей до деплою у співпраці з командою DevOps.
Що ми пропонуємо:
- Гідний рівень оплати
- Щорічне підвищення оплати праці в рамках перегляду рівня зарплат по компанії
- Чіткі умови для отримання бонусів, які не залежать від коливань ринку чи зовнішніх факторів
- Програму «Завжди поруч» — додаткові авансові виплати у розмірі середньомісячної зарплати на запит співробітника.
- Безперервний професійний розвиток через розгалужену систему фахового навчання — дистанційні та офлайн тренінги і навчальні курси
- Проєкт з турботи про себе та власне ментальне здоров’я «Життєстійкість. Сила в Тобі» — турбота про фізичне здоров’я, ментальне здоров’я, соціальні відносини, творчість
- Безкоштовну анонімну підтримку професійного психолога
- Можливість долучитися до корпоративних волонтерів і відвідувати поранених у госпіталях з пакунками «Відновлення» від Кернел
- Працювати в Компанії, яка системно і масштабно підтримує Сили Оборони України
Ваші основні обов’язки:
- Автоматизація ML-пайплайнів: Впровадження та підтримка автоматизації всіх етапів життєвого циклу ML-моделей, від збору даних до підготовки до деплою, з метою мінімізації ручного втручання та прискорення процесів.
- Збір та інжестінг даних: Розробка, підтримка та оптимізація пайплайнів для збору сирих даних з різноманітних джерел (супутникові зображення, метеодані, мобільний скаутинг, інші бази даних).
- Валідація та якість даних: Впровадження автоматизованих систем перевірки якості, цілісності та відповідності даних схемі (data schema skews, data values skews) для забезпечення високої достовірності даних для навчання моделей. Допомога у забезпеченні загальної якості, консистентності та надійності даних.
- Тестування та налагодження: Розробка та проведення тестів (юніт, інтеграційні, тести якості даних та моделей) для забезпечення надійності та коректності компонентів ML-пайплайнів. Налагодження проблем, що виникають.
- Оптимізація ресурсів: Моніторинг та оптимізація використання обчислювальних ресурсів (CPU, GPU, пам’ять, сховище) для ефективного навчання та інференсу ML-моделей.
- Оптимізація коду: Покращення продуктивності та ефективності Python-коду, що використовується для обробки даних, feature engineering та ML-моделей. Проведення код-рев’ю, покращення існуючої системи та впровадження best practices в інженерних процесах.
- Підготовка API для моделей: Сприяння та участь у підготовці API для інтеграції ML-моделей у продакшн-середовище (у співпраці з командою DevOps).
- Зберігання даних: Участь у проектуванні та управлінні рішеннями для зберігання великих обсягів даних, включаючи ембедінги від Foundation моделей.
Ми очікуємо від вас:
- Досвід роботи: 2+ роки досвіду роботи на позиції Data Engineer, Python Developer або схожій ролі.
- Мови програмування: Відмінне знання Python та досвід роботи з бібліотеками для обробки даних (Pandas, NumPy).
- Інтеграція API: Досвід інтеграції RESTful API для витягування або відправлення даних.
- Тестування: Досвід написання юніт-тестів та інтеграційних тестів для коду.
- Основи ML: Базове розуміння життєвого циклу ML-моделей та їх компонентів. Знайомство з ML-фреймворками та інструментами (наприклад, TensorFlow, PyTorch, scikit-learn) та їх вимогами до даних.
- Бази даних: Досвід роботи з SQL та розуміння принципів роботи з реляційними та NoSQL базами даних.
- Пайплайни даних: Розуміння та досвід побудови ETL/ELT пайплайнів.
- Якість даних: Досвід впровадження механізмів валідації та контролю якості даних.
- Хмарні платформи: Загальне розуміння принципів роботи з хмарними провайдерами (AWS, Google Cloud Platform або Azure).
- Комунікація: Здатність ефективно взаємодіяти з дата-сайєнтистами та командою DevOps.
Буде плюсом:
- Досвід роботи з інструментами MLOps (Docker, Kubeflow, MLflow, Airflow, DVC).
- Досвід роботи з великими даними (Apache Spark, Kafka).
- Досвід роботи з геопросторовими даними та супутниковими знімками.
- Знайомство з концепціями Foundation Models та ембедінгів.
- Досвід роботи з ArcGIS або іншими геоінформаційними системами (ГІС).
- Досвід розгортання та адміністрування баз даних.
- Досвід роботи з Feature Store.
- Досвід розробки DWH / Data Lake-рішень.
- Безпека даних: Знання best practices у сфері конфіденційності, безпеки та відповідності нормативним вимогам при роботі з аерофотознімками або чутливими даними.