cyberharbor.tech

Joined in 2025
3% answers

Cyber Harbor is a fast-growing Ukraine-based company founded by elite engineers and researchers who defended critical cyber infrastructure during the war. We build AI-powered systems shaped by real-world defense experience - ready for real-world complexity.

  • · 89 views · 10 applications · 5d

    Middle Data Annotator / Data Labeler

    Full Remote · Ukraine · Product · 1 year of experience · English - B1 MilTech 🪖
    Шукаємо фахівця для підготовки датасетів, що використовуються для перевірки якості та тренування власних AI/ML моделей. Основне завдання – анотація текстів, отриманих з відсканованих документів (OCR), та визначення іменованих сутностей (NER), таких як...

    Шукаємо фахівця для підготовки датасетів, що використовуються для перевірки якості та тренування власних AI/ML моделей. 

     

    Основне завдання – анотація текстів, отриманих з відсканованих документів (OCR), та визначення іменованих сутностей (NER), таких як номери телефонів, адреси, назви організацій тощо.

     

    Ви отримуватимете набори сканів або фотографій документів і перетворюватимете їх у структурований текст із використанням Markdown, додатково позначаючи ключові ідентифікатори. 

     

    Окрім роботи з текстами передбачена обробка аудіо- та відеоматеріалів: створення транскриптів із таймкодами та діаризацією мовців, NER у транскриптах, нормалізація і верифікація якості; для відео - сегментація на сцени/епізоди, кадр-точні таймкоди, опис подій, позначення екранних написів, логотипів, облич та об’єктів.
     

    Бажаним є досвід роботи з Label Studio, CVAT або подібними інструментами, базові навички програмування, а також досвід участі у тренуванні чи тестуванні AI/ML моделей.

     

    Робота віддалена, в рамках розробки власного продукту, що знаходиться на передовій сучасних технологій та орієнтований на державний сектор. 

    Наша компанія є критично важливою для Збройних сил України; за потреби надаємо бронювання та офісну техніку.

    More
  • · 47 views · 5 applications · 12d

    ML/AI Engineer (OCR, VL Models)

    Full Remote · Ukraine · Product · 3 years of experience · English - B2 MilTech 🪖
    Наша компанія розробляє власну інтерактивну базу знань. Користувачі можуть завантажувати будь-який обсяг різноманітних даних, після чого система автоматично перетворює їх на структурований, придатний для пошуку контент. Для цього застосовується...

    Наша компанія розробляє власну інтерактивну базу знань. Користувачі можуть завантажувати будь-який обсяг різноманітних даних, після чого система автоматично перетворює їх на структурований, придатний для пошуку контент. Для цього застосовується комплексний ML-пайплайн із залученням OCR, VL моделей, документних парсерів та різних типів сховищ даних. Пошук реалізовано через чат на базі LLM, який дозволяє формувати запити звичайною мовою, отримувати релевантні документи, а також узагальнені висновки та рекомендації на основі завантажених матеріалів. 

    Зараз ми шукаємо ML/AI інженера з глибоким досвідом роботи з неструктурованим контентом (насамперед фотографіями та скан-копіями документів), який підсилить нашу команду та очолить напрям розробки пайплайнів і рішень для обробки таких даних. 

    Ми очікуємо, що кандидат: 
    • Має широкий досвід роботи з неструктурованими даними та застосовував як класичні OCR-системи (Tesseract, PaddleOCR, EasyOCR), так і сучасні моделі (PaddleOCR-VL, DeepSeek-OCR, dots.ocr, Qwen3-VL). Розуміє сильні та слабкі сторони різних архітектур і сценарії їх застосування. 
    • Має практичний досвід навчання та fine-tuning OCR і Vision-Language моделей. 
    • Розуміє алгоритмічні методи покращення зображень, їх попередню фільтрацію та обробку для підвищення якості подальшого розпізнавання. 
    • Працював з Docling (включно з тонким налаштуванням бекендів для парсингу складних PDF і таблиць), markitdown, Apache Tika, PyMuPDF та іншими інструментами для конвертації й структуризації документів. Орієнтується у процесингу багатошарових і нетривіальних PDF-файлів. 
    • Має досвід роботи з self-hosted моделями, зокрема запуску та оптимізації моделей у середовищах vLLM на GPU рівня H100 і вище, розуміє принципи GPU-архітектури та KV cache. 
    • Має сильні навички програмування на Python: архітектурні патерни, багатопоточність, асинхронність, сучасні практики тестування, досвід експлуатації сервісів під високим навантаженням (моніторинг, телеметрія, утилізація пам'яті). 
    • Має досвід роботи з документоорієнтованими, реляційними та векторними базами даних, розуміє типи індексів і відповідні юзкейси для кожного типу сховищ. 

    Буде плюсом: 
    • Досвід роботи з Speech-to-text або Video-to-text пайплайнами.
    • Досвід аналізу контенту: класифікація, сумаризація, NER. 
    • Досвід у data engineering: розуміння ETL/ELT-процесів, робота з оркестраторами (Airflow, Temporal, Prefect) та системами розподіленого обчислення (Ray.io, Spark). 
    • Досвід у DevOps: CI/CD, Kubernetes, Helm, ArgoCD. 
    • Досвід роботи з Elasticsearch, MongoDB, PostgreSQL, Qdrant/Milvus, Neo4j та іншими сховищами. 
    • Розуміння сучасних підходів до кібербезпеки. 
    • Практичний досвід із системами на основі RAG у продакшені. 

    Пропонуємо повністю віддалений формат роботи над власним продуктом, який використовує найсучасніші технології та орієнтований на державний сектор. Компанія має статус критично важливої для Збройних сил України. За потреби надаємо бронювання та необхідну офісну техніку.

    More
Log In or Sign Up to see all posted jobs