ML Engineer (Computer Vision / NLP / LLM) - RaccoonDoc
Про продукт
RaccoonDoc - це не просто «ще один OCR». Це український AI-продукт для автоматизації обробки документів (IDP), який перетворює хаос з актів, накладних, договорів, рахунків і сканів у структуровані дані, з якими можна працювати.
Наші клієнти - компанії, в яких документи не вимірюються "папками", а йдуть тисячами й десятками тисяч на місяць.
Ми шукаємо Machine Learning Engineer в продуктову команду RaccoonDoc, який хоче працювати з реальними даними та продакшн-моделями, а не тільки з датасетами з Kaggle.
Що ми робимо з ML
У RaccoonDoc ML - це не прикраса, а серце продукту. Ми:
- розробляємо моделі для:
- розпізнавання структури документів (Object Detection, layout),
- класифікації документів,
- витягування сутностей (NER) та ключових полів;
- активно використовуємо Computer Vision + NLP + LLM:
- CV для структури, полів, таблиць;
- NLP / Transformers / LLM - для розуміння тексту, варіантів формулювань, "кривих" документів;
- виводимо моделі в продакшн на Azure / AWS.
Що ти будеш робити
- Розробляти, тренувати та вдосконалювати ML-моделі для документів:
- Object Detection (розпізнавання полів, блоків, елементів на сторінці);
- NER, Text Classification, витягування реквізитів.
- Працювати з трансформерами та LLM для задач обробки тексту (сурогатні поля, нормалізація, post-processing).
- Інтегрувати моделі в наш продукт:
- обгортати їх у сервіси (Flask / FastAPI);
- деплоїти в хмарі (Azure / AWS, Docker, CI/CD).
- Проходити повний цикл:
- збір та підготовка даних (анотація, валідація, експерименти),
- прототипування моделей,
- A/B-тести, порівняння, вибір архітектури,
- розгортання, моніторинг, ітерації.
- Оптимізувати існуючі моделі:
- точність, швидкість, стабільність;
- cost-ефективність у хмарі.
- Співпрацювати з розробниками, аналітиками та фаундером продукту - впливати на те, як виглядатиме RaccoonDoc через рік.
Технологічний стек
ML / AI:
- Python (основа всього),
- PyTorch / TensorFlow,
- Scikit-learn,
- YOLO (Object Detection),
- spaCy,
- Transformers (HuggingFace),
- LLM (OpenAI / інші).
Сервіси / Web:
- Flask, FastAPI,
- Docker.
Хмара (Azure / AWS):
- Azure Web Apps, Azure ML, Azure Functions, Azure DevOps, Service Bus, Application Insights, DB/Blob Storage,
- AWS SageMaker, AWS Lambda, AWS ECR.
Плюс:
- класичні алгоритми ML (Random Forest, SVM, KNN),
- робота з API.
Не обовʼязково знати все з цього списку, але чим більше реального досвіду - тим краще.
Необхідні навички та досвід
- 1+ рік комерційного досвіду на позиції ML Engineer / Data Scientist.
- Сильний Python + практичний досвід із бібліотеками:
- PyTorch або TensorFlow,
- Scikit-learn.
- Досвід хоча б з кількома задачами:
- Object Detection (YOLO чи аналог),
- NER,
- Text Classification.
- Практичний досвід роботи з трансформерами / LLM (не лише статті, а реальні експерименти / проєкти).
- Розуміння принципів MLOps та досвід деплою моделей в одну з хмар (Azure або AWS).
- Досвід роботи з Docker (контейнеризація сервісів).
- Базове розуміння API (Flask / FastAPI) та того, як модель живе всередині сервісу.
Буде плюсом
- Досвід з Azure (Azure ML, Azure DevOps, Azure Functions) або AWS (SageMaker, Lambda).
- Досвід роботи з табличками / великими масивами текстових / документних даних.
- Розуміння домену:
- фінанси, бухгалтерія, документообіг, операційні процеси.
- Досвід оптимізації моделей під продакшн (квантизація, prunning, latency/performance-трейд-оф).
Що ми пропонуємо
- Продукт, а не проєкт. Ти працюєш із ядром RaccoonDoc, а не з одноразовим кастомним рішенням.
- Реальні дані й реальний імпакт. Моделі будуть розгрібати живий "бардак" з документів українського бізнесу, а не ідеальні датасети.
- Динаміка стартапу + здоровий підхід. Швидкі рішення, мінімум бюрократії, але з нормальною інженерною культурою.
- Гнучкий формат. Віддалено з будь-якого міста України; ми розуміємо реалії війни, тривог і блекаутів.
- Ріст. Можливість рости в продукті, який будується навколо ML, а не "додає його зверху".
Процес найму
- Короткий кол (до 30 хв) - знайомство, контекст продукту, твої очікування.
- Технічний етап (60–90 хв) - обговорення твоїх продакшн-кейсів, архітектурних рішень, експериментів.
- Співбесіда з фаундером (30–45 хв) - про бачення продукту, роль ML у RaccoonDoc, розвиток.
- Оффер.
Якщо хочеш, щоб твої моделі не припадали пилом у репозиторії, а щодня економили сотні людино-годин на роботі з документами - відгукнися на цю вакансію.
Required skills experience
| Python3 | 1 year |
| PyTorch | 1 year |
| NLP | 1 year |
| Object Detection | 1 year |
| AI/ML | 1 year |
Required languages
| English | B1 - Intermediate |