ML Engineer (Computer Vision / NLP / LLM) - RaccoonDoc

Про продукт

RaccoonDoc - це не просто «ще один OCR». Це український AI-продукт для автоматизації обробки документів (IDP), який перетворює хаос з актів, накладних, договорів, рахунків і сканів у структуровані дані, з якими можна працювати.

 

Наші клієнти - компанії, в яких документи не вимірюються "папками", а йдуть тисячами й десятками тисяч на місяць.

 

Ми шукаємо Machine Learning Engineer в продуктову команду RaccoonDoc, який хоче працювати з реальними даними та продакшн-моделями, а не тільки з датасетами з Kaggle.

 

Що ми робимо з ML

У RaccoonDoc ML - це не прикраса, а серце продукту. Ми:

  • розробляємо моделі для:
    • розпізнавання структури документів (Object Detection, layout),
    • класифікації документів,
    • витягування сутностей (NER) та ключових полів;
  • активно використовуємо Computer Vision + NLP + LLM:
    • CV для структури, полів, таблиць;
    • NLP / Transformers / LLM - для розуміння тексту, варіантів формулювань, "кривих" документів;
  • виводимо моделі в продакшн на Azure / AWS.

 

Що ти будеш робити

  • Розробляти, тренувати та вдосконалювати ML-моделі для документів:
    • Object Detection (розпізнавання полів, блоків, елементів на сторінці);
    • NER, Text Classification, витягування реквізитів.
  • Працювати з трансформерами та LLM для задач обробки тексту (сурогатні поля, нормалізація, post-processing).
  • Інтегрувати моделі в наш продукт:
    • обгортати їх у сервіси (Flask / FastAPI);
    • деплоїти в хмарі (Azure / AWS, Docker, CI/CD).
  • Проходити повний цикл:
    • збір та підготовка даних (анотація, валідація, експерименти),
    • прототипування моделей,
    • A/B-тести, порівняння, вибір архітектури,
    • розгортання, моніторинг, ітерації.
  • Оптимізувати існуючі моделі:
    • точність, швидкість, стабільність;
    • cost-ефективність у хмарі.
  • Співпрацювати з розробниками, аналітиками та фаундером продукту - впливати на те, як виглядатиме RaccoonDoc через рік.

 

Технологічний стек

ML / AI:

  • Python (основа всього),
  • PyTorch / TensorFlow,
  • Scikit-learn,
  • YOLO (Object Detection),
  • spaCy,
  • Transformers (HuggingFace),
  • LLM (OpenAI / інші).

Сервіси / Web:

  • Flask, FastAPI,
  • Docker.

Хмара (Azure / AWS):

  • Azure Web Apps, Azure ML, Azure Functions, Azure DevOps, Service Bus, Application Insights, DB/Blob Storage,
  • AWS SageMaker, AWS Lambda, AWS ECR.

Плюс:

  • класичні алгоритми ML (Random Forest, SVM, KNN),
  • робота з API.

Не обовʼязково знати все з цього списку, але чим більше реального досвіду - тим краще.

 

Необхідні навички та досвід

  • 1+ рік комерційного досвіду на позиції ML Engineer / Data Scientist.
  • Сильний Python + практичний досвід із бібліотеками:
    • PyTorch або TensorFlow,
    • Scikit-learn.
  • Досвід хоча б з кількома задачами:
    • Object Detection (YOLO чи аналог),
    • NER,
    • Text Classification.
  • Практичний досвід роботи з трансформерами / LLM (не лише статті, а реальні експерименти / проєкти).
  • Розуміння принципів MLOps та досвід деплою моделей в одну з хмар (Azure або AWS).
  • Досвід роботи з Docker (контейнеризація сервісів).
  • Базове розуміння API (Flask / FastAPI) та того, як модель живе всередині сервісу.

 

Буде плюсом

  • Досвід з Azure (Azure ML, Azure DevOps, Azure Functions) або AWS (SageMaker, Lambda).
  • Досвід роботи з табличками / великими масивами текстових / документних даних.
  • Розуміння домену:
    • фінанси, бухгалтерія, документообіг, операційні процеси.
  • Досвід оптимізації моделей під продакшн (квантизація, prunning, latency/performance-трейд-оф).

 

Що ми пропонуємо

  • Продукт, а не проєкт. Ти працюєш із ядром RaccoonDoc, а не з одноразовим кастомним рішенням.
  • Реальні дані й реальний імпакт. Моделі будуть розгрібати живий "бардак" з документів українського бізнесу, а не ідеальні датасети.
  • Динаміка стартапу + здоровий підхід. Швидкі рішення, мінімум бюрократії, але з нормальною інженерною культурою.
  • Гнучкий формат. Віддалено з будь-якого міста України; ми розуміємо реалії війни, тривог і блекаутів.
  • Ріст. Можливість рости в продукті, який будується навколо ML, а не "додає його зверху".

 

Процес найму

  1. Короткий кол (до 30 хв) - знайомство, контекст продукту, твої очікування.
  2. Технічний етап (60–90 хв) - обговорення твоїх продакшн-кейсів, архітектурних рішень, експериментів.
  3. Співбесіда з фаундером (30–45 хв) - про бачення продукту, роль ML у RaccoonDoc, розвиток.
  4. Оффер.

 

Якщо хочеш, щоб твої моделі не припадали пилом у репозиторії, а щодня економили сотні людино-годин на роботі з документами - відгукнися на цю вакансію.

Required skills experience

Python3 1 year
PyTorch 1 year
NLP 1 year
Object Detection 1 year
AI/ML 1 year

Required languages

English B1 - Intermediate
Published 2 December
47 views
·
0 applications
To apply for this and other jobs on Djinni login or signup.
Loading...