Jobs Vinnytsia

3
  • · 43 views · 1 application · 8d

    Junior/Middle Data engineer (IRC274101)

    Hybrid Remote · Ukraine (Vinnytsia, Zhytomyr, Ivano-Frankivsk + 7 more cities) · 2 years of experience · Upper-Intermediate
    Job Description Strong experience in data pipeline development and ETL/ELT processes. Proficiency with Apache Airflow for workflow orchestration. Hands-on experience with object storage solutions, preferably MinIO. Expertise in SQL and database...

    Job Description

    • Strong experience in data pipeline development and ETL/ELT processes.
    • Proficiency with Apache Airflow for workflow orchestration.
    • Hands-on experience with object storage solutions, preferably MinIO.
    • Expertise in SQL and database management, specifically PostgreSQL.
    • Experience with graph databases like Neo4j.
    • Familiarity with vector databases such as Qdrant.
    • Ability to work with large, diverse datasets and ensure data integrity.
    • Solid expertise in SQL and relational DBs
    • Experience in database design and optimization
    • Experience with NoSQL DBs (MongoDB, Cosmos, etc.) for handling unstructured and semi-structured data
    • Contributing to release management following the best CI/CD practices

       

    Job Responsibilities

    • Design, develop, and maintain robust and scalable data pipelines for ingesting, transforming, and loading diverse datasets.
    • Implement ETL/ELT processes to cleanse, validate, and enrich raw data into query-optimized formats.
    • Orchestrate data workflows using Apache Airflow, including scheduling jobs and managing dependencies.
    • Manage and optimize data storage solutions in MinIO (object storage), PostgreSQL (relational data).
    • Ensure data integrity, quality, and compliance throughout the data lifecycle.
    • Collaborate with cross-functional teams to understand data requirements and deliver data solutions that enable advanced analytics and AI/ML initiatives.
    • Troubleshoot and resolve data-related issues, ensuring high availability and performance of data systems.

     

    Department/Project Description

    Our client is focused on developing a robust and versatile data ingestion pipeline and associated schema designed to efficiently and accurately collect, process, analyze, and manage diverse data types from various sources in real-time or near real-time.This pipeline will automate and enhance data workflows, ensure data quality, and support advanced analytical capabilities including NLP, Face Recognition, and OCR.

    As a Middle Data Engineer on the project, you will play a crucial role in managing deployment, infrastructure, automation, and monitoring. You will be instrumental in setting up and maintaining CI/CD pipelines, managing cloud resources, ensuring system stability and performance, and implementing robust logging and alerting mechanisms for the client platform.If you seek a challenge and want to impact the way the world distributes products from manufacturers to store shelves, we invite you to join our team.

    More
  • · 17 views · 0 applications · 8d

    Middle/Senior Data Engineer (IRC274051)

    Hybrid Remote · Ukraine (Vinnytsia, Ivano-Frankivsk, Kyiv + 7 more cities) · 3 years of experience · Upper-Intermediate
    Job Description - 3+ years of intermediate to advanced SQL - 3+ years of Python development (intermediate level is fine: Pandas, Numpy, boto3, seaborn, requests, unittest) - Experience building ETLs, preferably in python - Experience with data tools (ex.:...

    Job Description

    - 3+ years of intermediate to advanced SQL

    - 3+ years of Python development (intermediate level is fine: Pandas, Numpy, boto3, seaborn, requests, unittest)

    - Experience building ETLs, preferably in python

    - Experience with data tools (ex.: Airflow, Grafana, AWS Glue, AWS Athena)

    - Excellent understanding of database design

    - Cloud expereince (AWS S3, Lambda, or alternatives)

    - Agile SDLC knowledge
    - Detail-oriented
    - Data-focused
    - Strong verbal/written communication and data presentation skills, including an ability to effectively communicate with both business and technical teams
    - An ability and interest in working in a fast-paced and rapidly changing environment
    - Be self-driven and show ability to deliver on ambiguous projects with incomplete or dirty data

     

    Would be a plus:
    - Understanding of basic SVOD store purchase workflows
    - Background in supporting data scientists in conducting data analysis / modelling to support business decision making

    - Experience in supervising subordinate staff

     

    Job Responsibilities

    - Data analysis, auditing, statistical analysis
    - ETL buildouts for data reconciliation
    - Creation of automatically-running audit tools
    - Interactive log auditing to look for potential data problems
    - Help in troubleshooting customer support team cases
    - Troubleshooting and analyzing subscriber reporting issues:
          Answer management questions related to subscriber count trends
          App purchase workflow issues
          Audit/reconcile store subscriptions vs userdb

    Department/Project Description

    Customer is one of the biggest companies on the market of home entertainment consumer electronics devices that strives to provide their clients with high-quality products and services.

    This position collaborates with a geographically diverse team to develop, deliver, and maintain systems for digital subscription and transactional products across the Customer’ SVOD portfolio.

    More
  • · 34 views · 2 applications · 30d

    Middle Data Engineer / Python Developer (AgriTech)

    Hybrid Remote · Ukraine (Vinnytsia, Dnipro, Zhytomyr + 3 more cities) · Product · 3 years of experience · Intermediate
    Про роль: Ви будете ключовим гравцем у нашій команді, відповідальним за створення та підтримку ефективної інфраструктури даних для наших AI/ML пайплайнів. Ваша робота буде зосереджена на забезпеченні безперебійного потоку даних, їх валідації, оптимізації...

    Про роль:

    Ви будете ключовим гравцем у нашій команді, відповідальним за створення та підтримку ефективної інфраструктури даних для наших AI/ML пайплайнів. Ваша робота буде зосереджена на забезпеченні безперебійного потоку даних, їх валідації, оптимізації коду та підготовці моделей до деплою у співпраці з командою DevOps.

    Що ми пропонуємо:

    • Гідний рівень оплати
    • Щорічне підвищення оплати праці в рамках перегляду рівня зарплат по компанії
    • Чіткі умови для отримання бонусів, які не залежать від коливань ринку чи зовнішніх факторів
    • Програму «Завжди поруч» — додаткові авансові виплати у розмірі середньомісячної зарплати на запит співробітника.
    • Безперервний професійний розвиток через розгалужену систему фахового навчання — дистанційні та офлайн тренінги і навчальні курси
    • Проєкт з турботи про себе та власне ментальне здоров’я «Життєстійкість. Сила в Тобі» — турбота про фізичне здоров’я, ментальне здоров’я, соціальні відносини, творчість
    • Безкоштовну анонімну підтримку професійного психолога
    • Можливість долучитися до корпоративних волонтерів і відвідувати поранених у госпіталях з пакунками «Відновлення» від Кернел
    • Працювати в Компанії, яка системно і масштабно підтримує Сили Оборони України

    Ваші основні обов’язки:

    • Автоматизація ML-пайплайнів: Впровадження та підтримка автоматизації всіх етапів життєвого циклу ML-моделей, від збору даних до підготовки до деплою, з метою мінімізації ручного втручання та прискорення процесів.
    • Збір та інжестінг даних: Розробка, підтримка та оптимізація пайплайнів для збору сирих даних з різноманітних джерел (супутникові зображення, метеодані, мобільний скаутинг, інші бази даних).
    • Валідація та якість даних: Впровадження автоматизованих систем перевірки якості, цілісності та відповідності даних схемі (data schema skews, data values skews) для забезпечення високої достовірності даних для навчання моделей. Допомога у забезпеченні загальної якості, консистентності та надійності даних.
    • Тестування та налагодження: Розробка та проведення тестів (юніт, інтеграційні, тести якості даних та моделей) для забезпечення надійності та коректності компонентів ML-пайплайнів. Налагодження проблем, що виникають.
    • Оптимізація ресурсів: Моніторинг та оптимізація використання обчислювальних ресурсів (CPU, GPU, пам’ять, сховище) для ефективного навчання та інференсу ML-моделей.
    • Оптимізація коду: Покращення продуктивності та ефективності Python-коду, що використовується для обробки даних, feature engineering та ML-моделей. Проведення код-рев’ю, покращення існуючої системи та впровадження best practices в інженерних процесах.
    • Підготовка API для моделей: Сприяння та участь у підготовці API для інтеграції ML-моделей у продакшн-середовище (у співпраці з командою DevOps).
    • Зберігання даних: Участь у проектуванні та управлінні рішеннями для зберігання великих обсягів даних, включаючи ембедінги від Foundation моделей.

    Ми очікуємо від вас:

    • Досвід роботи: 2+ роки досвіду роботи на позиції Data Engineer, Python Developer або схожій ролі.
    • Мови програмування: Відмінне знання Python та досвід роботи з бібліотеками для обробки даних (Pandas, NumPy).
    • Інтеграція API: Досвід інтеграції RESTful API для витягування або відправлення даних.
    • Тестування: Досвід написання юніт-тестів та інтеграційних тестів для коду.
    • Основи ML: Базове розуміння життєвого циклу ML-моделей та їх компонентів. Знайомство з ML-фреймворками та інструментами (наприклад, TensorFlow, PyTorch, scikit-learn) та їх вимогами до даних.
    • Бази даних: Досвід роботи з SQL та розуміння принципів роботи з реляційними та NoSQL базами даних.
    • Пайплайни даних: Розуміння та досвід побудови ETL/ELT пайплайнів.
    • Якість даних: Досвід впровадження механізмів валідації та контролю якості даних.
    • Хмарні платформи: Загальне розуміння принципів роботи з хмарними провайдерами (AWS, Google Cloud Platform або Azure).
    • Комунікація: Здатність ефективно взаємодіяти з дата-сайєнтистами та командою DevOps.

    Буде плюсом:

    • Досвід роботи з інструментами MLOps (Docker, Kubeflow, MLflow, Airflow, DVC).
    • Досвід роботи з великими даними (Apache Spark, Kafka).
    • Досвід роботи з геопросторовими даними та супутниковими знімками.
    • Знайомство з концепціями Foundation Models та ембедінгів.
    • Досвід роботи з ArcGIS або іншими геоінформаційними системами (ГІС).
    • Досвід розгортання та адміністрування баз даних.
    • Досвід роботи з Feature Store.
    • Досвід розробки DWH / Data Lake-рішень.
    • Безпека даних: Знання best practices у сфері конфіденційності, безпеки та відповідності нормативним вимогам при роботі з аерофотознімками або чутливими даними.
    More
Log In or Sign Up to see all posted jobs