Data Annotator / Data Labeler
В пошуках фахівця для підготовки датасетів, що використовуються для перевірки якості та тренування власних AI/ML моделей.
Основне завдання – анотація текстів з відсканованих, сфотографованих та просто друкованих документів, газет, довідок та інших форматів документів.
Ви отримуватимете набори сканів або фотографій документів і перетворюватимете їх у структурований текст із використанням Markdown, додатково позначаючи ключові ідентифікатори.
Окрім роботи з текстами передбачена обробка аудіо- та відеоматеріалів: створення транскриптів із таймкодами та діаризацією мовців, NER у транскриптах, нормалізація і верифікація якості; для відео - сегментація на сцени/епізоди, кадр-точні таймкоди, опис подій, позначення екранних написів, логотипів, облич та об'єктів.
Бажаним є досвід роботи з Label Studio або подібними інструментами, базові навички програмування, а також досвід участі у тренуванні чи тестуванні AI/ML моделей.
Вимоги:
Уважність до деталей.
Критична навичка, а не формальна вимога. Робота з датасетами не пробачає недбалості: некоректно розмічений фрагмент псує задачу, помилки в задачах накопичуються на рівні датасету, а модель, натренована на такому датасеті, відтворює ці помилки у власних відповідях.
Відповідальність за якість власної роботи.
Кандидат самостійно контролює якість виконаної роботи на всіх етапах: первинна розмітка, самоперевірка, фінальна верифікація перед передачею задачі. Виявлення та виправлення помилок є частиною робочого процесу, а не обов'язком рев'юера далі по пайплайну.
Здатність швидко навчатися та розвиватися.
Задачі змінюються часто разом із розвитком продукту, моделей і підходів до обробки даних. Очікуємо, що кандидат не лише виконуватиме конкретну інструкцію, а й поступово вивчить ширший контекст: для чого створюється датасет, як він впливає на якість AI/ML моделей, які помилки є критичними та чому певні правила розмітки важливі.
Аналітичне мислення та цікавість до AI/ML.
Буде перевагою, якщо ви не просто виконуєте задачу, а намагаєтесь зрозуміти логіку процесу: розбираєтесь у термінології, ставите правильні питання, можете помічати патерни в помилках, тестувати результати роботи моделей і пропонувати покращення до процесу розмітки чи валідації даних. Це в майбутньому приведе до росту в Lead позицію.
Робота віддалена, в рамках розробки власного продукту, що знаходиться на передовій сучасних технологій та орієнтований на державний сектор.
Наша компанія є критично важливою для Збройних сил України; за потреби надаємо бронювання та офісну техніку.
Required skills experience
| Data Annotation | 1 year |
| Data Labeling | 1 year |
Required languages
| English | B1 - Intermediate |
| Ukrainian | C2 - Proficient |