ML/AI Engineer (OCR, VL Models)

MilTech 🪖

Our company is developing its own interactive knowledge base. Users can upload any volume of diverse data, after which the system automatically transforms it into structured, searchable content. To achieve this, we use a comprehensive ML pipeline involving OCR, vision-language models, document parsers, and multiple types of data storage. Search is implemented through an LLM-based chat interface that allows users to submit queries in natural language, retrieve relevant documents, and receive summarized findings and recommendations based on the uploaded materials.

We are currently looking for an ML/AI Engineer with deep experience working with unstructured content - primarily photographs and scanned document copies - who will strengthen our team and lead the development of pipelines and solutions for processing this type of data.

We expect the candidate to:

Have broad experience working with unstructured data and have used both classical OCR systems (Tesseract, PaddleOCR, EasyOCR) and modern models (PaddleOCR-VL, DeepSeek-OCR, dots.ocr, Qwen3-VL). Understand the strengths and weaknesses of different architectures and the scenarios in which each is most effective.
Have hands-on experience training and fine-tuning OCR and Vision-Language models.
Understand algorithmic approaches to image enhancement, preprocessing, and filtering in order to improve downstream recognition quality.
Have worked with Docling (including advanced backend tuning for parsing complex PDFs and tables), markitdown, Apache Tika, PyMuPDF, and other tools for document conversion and structuring. Be comfortable with processing layered and non-trivial PDF files.
Have experience working with self-hosted models, including deploying and optimizing models in vLLM environments on H100-class GPUs and above, and understand the principles of GPU architecture and KV cache.
Have strong Python programming skills, including architectural patterns, multithreading, asynchronous programming, modern testing practices, and experience operating services under high load (monitoring, telemetry, memory utilization).
Have experience working with document-oriented, relational, and vector databases, and understand index types and the relevant use cases for each type of storage.

It would be a plus if you have:

Experience working with Speech-to-Text or Video-to-Text pipelines.
Experience in content analysis, including classification, summarization, and NER.
Experience in data engineering: understanding of ETL/ELT processes, experience with orchestrators (Airflow, Temporal, Prefect), and distributed computing systems (Ray, Spark).
Experience in DevOps: CI/CD, Kubernetes, Helm, ArgoCD.
Experience working with Elasticsearch, MongoDB, PostgreSQL, Qdrant/Milvus, Neo4j, and other storage systems.
Understanding of modern cybersecurity approaches.
Hands-on experience with production-grade RAG-based systems.

We offer a fully remote work format on our own product, which uses state-of-the-art technologies and is focused on the public sector. The company has the status of being critically important to the Armed Forces of Ukraine. If needed, we provide military deferment and the necessary office equipment.

–––––––––––––––––––––––––––––––Рідною–––––––––––––––––––––––––––––––

Наша компанія розробляє власну інтерактивну базу знань. Користувачі можуть завантажувати будь-який обсяг різноманітних даних, після чого система автоматично перетворює їх на структурований, придатний для пошуку контент. Для цього застосовується комплексний ML-пайплайн із залученням OCR, VL моделей, документних парсерів та різних типів сховищ даних. Пошук реалізовано через чат на базі LLM, який дозволяє формувати запити звичайною мовою, отримувати релевантні документи, а також узагальнені висновки та рекомендації на основі завантажених матеріалів.

Зараз ми шукаємо ML/AI інженера з глибоким досвідом роботи з неструктурованим контентом (насамперед фотографіями та скан-копіями документів), який підсилить нашу команду та очолить напрям розробки пайплайнів і рішень для обробки таких даних.

Ми очікуємо, що кандидат:
• Має широкий досвід роботи з неструктурованими даними та застосовував як класичні OCR-системи (Tesseract, PaddleOCR, EasyOCR), так і сучасні моделі (PaddleOCR-VL, DeepSeek-OCR, dots.ocr, Qwen3-VL). Розуміє сильні та слабкі сторони різних архітектур і сценарії їх застосування.
• Має практичний досвід навчання та fine-tuning OCR і Vision-Language моделей.
• Розуміє алгоритмічні методи покращення зображень, їх попередню фільтрацію та обробку для підвищення якості подальшого розпізнавання.
• Працював з Docling (включно з тонким налаштуванням бекендів для парсингу складних PDF і таблиць), markitdown, Apache Tika, PyMuPDF та іншими інструментами для конвертації й структуризації документів. Орієнтується у процесингу багатошарових і нетривіальних PDF-файлів.
• Має досвід роботи з self-hosted моделями, зокрема запуску та оптимізації моделей у середовищах vLLM на GPU рівня H100 і вище, розуміє принципи GPU-архітектури та KV cache.
• Має сильні навички програмування на Python: архітектурні патерни, багатопоточність, асинхронність, сучасні практики тестування, досвід експлуатації сервісів під високим навантаженням (моніторинг, телеметрія, утилізація пам'яті).
• Має досвід роботи з документоорієнтованими, реляційними та векторними базами даних, розуміє типи індексів і відповідні юзкейси для кожного типу сховищ.

Буде плюсом:
• Досвід роботи з Speech-to-text або Video-to-text пайплайнами.
• Досвід аналізу контенту: класифікація, сумаризація, NER.
• Досвід у data engineering: розуміння ETL/ELT-процесів, робота з оркестраторами (Airflow, Temporal, Prefect) та системами розподіленого обчислення (Ray.io, Spark).
• Досвід у DevOps: CI/CD, Kubernetes, Helm, ArgoCD.
• Досвід роботи з Elasticsearch, MongoDB, PostgreSQL, Qdrant/Milvus, Neo4j та іншими сховищами.
• Розуміння сучасних підходів до кібербезпеки.
• Практичний досвід із системами на основі RAG у продакшені.

Пропонуємо повністю віддалений формат роботи над власним продуктом, який використовує найсучасніші технології та орієнтований на державний сектор. Компанія має статус критично важливої для Збройних сил України. За потреби надаємо бронювання та необхідну офісну техніку.

Required languages

English	B2 - Upper Intermediate
Ukrainian	C1 - Advanced

Published 4 March

50 views

1 application

To apply for this and other jobs on Djinni login or signup.

Only from 3 years of experience
Full Remote
Ukraine
Countries where we consider candidates
- English B2 - Upper Intermediate
- Ukrainian C1 - Advanced

ML / AI

Employment: Fulltime
Domain: MilTech
Product

Apply for the job

📊 $2500-4000 Average salary range of similar jobs in analytics →