Data Engineer

MilTech 🪖

Cyber Harbor is a fast-growing Ukraine-based company founded by engineers and researchers who helped defend critical cyber infrastructure during the war. Our work is shaped by real-world experience, and we build AI-powered systems designed to handle complex, high-stakes environments.

 

We are currently expanding and looking for a strong Data Engineer to help us design and build scalable pipelines for processing large volumes of both structured and unstructured data. These pipelines power comprehensive, interactive knowledge bases used in real-world operations. 

In this role, you will work closely with the core data processing workflows and collaborate daily with software engineers, AI/ML engineers, DevOps specialists, and the QA team. Because much of the work happens across different parts of the system, strong communication and the ability to collaborate effectively with other teams are essential.


What You Will Do

- Design and build ETL/ELT pipelines for large volumes of unstructured data using orchestrators such as Temporal, Prefect, Celery, or Airflow, along with distributed processing engines like Ray and Spark.
- Automate AI-related tasks including text extraction, summarization, OCR, named entity recognition, and embedding generation using various self-hosted models, including some developed in-house.
- Design data schemas and manage storage across multiple systems, including relational databases (PostgreSQL), NoSQL databases (Elasticsearch, Mongodb), vector search engines (Qdrant, Milvus), and graph databases (Neo4j).
- Set up and maintain messaging queues for distributed data processing using tools such as Kafka, RabbitMQ.
- Develop custom Python tools and logic to ensure high throughput, reliability, and fault tolerance in data pipelines.
- Containerize services with Docker and orchestrate deployments using Kubernetes, including on-premise environments.
- Build and maintain CI/CD pipelines to support reliable development and deployment workflows.
- Monitor infrastructure and pipeline health using Prometheus and Grafana, and manage centralized logging with the ELK Stack.

 

What You Need to Join Us

- Strong hands-on experience with SELF-HOSTED data engineering tools.
- Solid Python skills and the ability to build reliable, production-grade data workflows.
- Experience automating workflows that involve different AI models, including self-hosted ones.
- Good understanding of how modern search and RAG systems are designed and operate.
- Familiarity with messaging systems such as Apache Kafka, RabbitMQ.
- Strong understanding of relational databases (PostgreSQL) as well as other data systems such as Elasticsearch, Qdrant/Milvus, and Neo4j.
- Practical experience with Docker, Kubernetes, and CI/CD tools (GitHub Actions or GitLab CI).
- Familiarity with monitoring and observability tools such as Prometheus, Grafana, and the ELK Stack.
- Experience working with on-premise infrastructure environments.

 

Why Join Us

- Make a Real Impact: Our systems have already been validated in real-world, nation-state level operations.
- Right Place, Right Time: Work at the intersection of AI, large-scale data processing, and cybersecurity.
- Military Deferment: Available for full-time employees.
- Flexible Schedule: Remote-friendly environment focused on results rather than rigid hours.

–––––––––––––––––––––––––––––––Рідною–––––––––––––––––––––––––––––––

Cyber Harbor - українська компанія, заснована інженерами та дослідниками, які брали участь у захисті критичної кіберінфраструктури під час війни. Ми спираємося на реальний практичний досвід і створюємо AI-powered системи для складних середовищ, де помилка може мати високу ціну.

 

Зараз ми розширюємо команду та шукаємо сильного Data Engineer, який допоможе нам проєктувати й розвивати масштабовані пайплайни для обробки великих обсягів структурованих і неструктурованих даних. Саме ці пайплайни є основою комплексних інтерактивних баз знань, що використовуються в реальних операційних процесах.

 

У цій ролі ви працюватимете з ключовими процесами обробки даних та щодня взаємодіятимете з software engineers, AI/ML engineers, DevOps specialists і QA командою. Значна частина задач лежить на стику кількох компонентів системи, тому для нас важливі сильні комунікаційні навички та вміння ефективно працювати з різними командами.

 

Що ви будете робити

  • Проєктувати та розробляти ETL/ELT-пайплайни для обробки великих обсягів неструктурованих даних із використанням інструментів оркестрації, таких як Temporal, Prefect, Celery або Airflow, а також систем розподіленої обробки, зокрема Ray і Spark.
  • Автоматизувати AI-related задачі, зокрема text extraction, summarization, OCR, named entity recognition та генерацію embeddings, використовуючи різні self-hosted моделі, у тому числі частково розроблені in-house.
  • Проєктувати схеми даних і будувати логіку зберігання в кількох системах одночасно: реляційних базах даних (PostgreSQL), NoSQL-рішеннях (Elasticsearch, MongoDB), векторних пошукових системах (Qdrant, Milvus) і графових базах даних (Neo4j).
  • Налаштовувати та підтримувати черги повідомлень для розподіленої обробки даних за допомогою таких інструментів, як Kafka та RabbitMQ.
  • Розробляти кастомні Python-інструменти й внутрішню логіку, що забезпечують високу пропускну здатність, надійність і відмовостійкість data pipelines.
  • Контейнеризувати сервіси за допомогою Docker та керувати розгортанням через Kubernetes, зокрема в on-premise середовищах.
  • Будувати й підтримувати CI/CD pipelines для стабільних і передбачуваних процесів розробки та деплою.
  • Відстежувати стан інфраструктури та пайплайнів за допомогою Prometheus і Grafana, а також підтримувати централізоване логування через ELK Stack.
     

Що нам важливо

  • Сильний практичний досвід роботи з self-hosted інструментами для data engineering.
  • Впевнене володіння Python і вміння будувати надійні data workflows production-рівня.
  • Досвід автоматизації процесів, що включають роботу з різними AI-моделями, зокрема self-hosted.
  • Розуміння принципів побудови та роботи сучасних search і RAG systems.
  • Практичний досвід роботи з системами обміну повідомленнями, зокрема Apache Kafka та RabbitMQ.
  • Сильне розуміння реляційних баз даних (PostgreSQL), а також інших систем зберігання й пошуку даних, зокрема Elasticsearch, Qdrant/Milvus і Neo4j.
  • Практичний досвід роботи з Docker, Kubernetes і CI/CD-інструментами (GitHub Actions або GitLab CI).
  • Знайомство з інструментами моніторингу та observability, такими як Prometheus, Grafana й ELK Stack.
  • Досвід роботи з on-premise інфраструктурою.

 

Чому варто приєднатися

  • Реальний вплив - наші системи вже використовуються в реальних операційних умовах.
  • Сильний технічний контекст - ви працюватимете на перетині AI, обробки великих даних і кібербезпеки.
  • Бронювання - доступне для full-time працівників.
  • Гнучкий формат роботи - remote-friendly середовище з фокусом на результат, а не на формальний графік.

Required languages

English B1 - Intermediate
Ukrainian C2 - Proficient
Published 4 March
39 views
·
6 applications
To apply for this and other jobs on Djinni login or signup.
Loading...