Senior Machine Learning Engineer (offline)

CASAFARI это самая большая и чистая база данных рынка недвижимости в Португалии, Испании, Италии и Франции. Мы собираем больше 580,000 объявлений в месяц, информация из которых проверяется и улучшается моделями машинного обучения. На основе данных мы строим разные продукты, которые приносят прибыль: метапоиск (как Skyscanner для перелетов), анализ рынка, оценка недвижимости и нахождение аналогов онлайн и через API.

Мы в цифрах:
• более 17 миллионов собранных и проанализированных объявлений о недвижимости,
• 42 миллиона изменений цен или статуса объектов недвижимости,
• 270 миллионов картинок в базе данных,
• нами пользуются больше 8,000 профессионалов (инвесторы, консультанты, управляющие активами, оценщики, работники агентств недвижимости) каждый день,
• в 3х наших офисах работают представители больше 14 национальностей.

Задачи, которые мы решаем, относятся к NLP, computer vision, clustering, classification и deep learning:
• ежедневный сбор и анализ данных (краулер и парсер) из нескольких тысяч источников,
• поиск аномалий во время сбора и первичной обработки данных,
• определение типа (квартира или дома) недвижимости и ее локации,
• выявление характеристик дома из неструктурированного текста,
• поиск дубликатов объектов недвижимости с разными вводными данными (цены, площадь, тип, картинки и т.д.),
• состояние (новый, старый),
• реальные или сгенерированные компьютером фото объявлений,
• классификация картинок (кухня, спальня, ванная комната, бассейн),
• алгоритмы для анализа рынка (маркет аналитика), с учетом и без выбросов,
• модели оценки недвижимости и выбора аналогов,
• построение и оптимизация инвестиционного портфеля.

Наш технологический стек и требования:
Python 3,
pandas,
Scikit-learn,
XGBoost,
PyTorch,
MySQL и MongoDB.
Если вы с чем-то не работали или работали с аналогами (например, TensorFlow и Keras вместо PyTorch), не стесняйтесь откликнуться на вакансию.

Также:
• мы используем ELK для аналитики как работают модели в production,
• наши проекты прогоняются через Jenkins и деплоятся в Kubernetes кластер,
• пишем тесты с pytest (стремимся покрывать 100% функциональности),
• следим за качеством кода с помощью linters и code analysis, code review, заимствуем best practices у команды разработчиков,
• храним код на Github.

Для этой роли необходимо:
• знать математическую статистику,
• критически мыслить, уметь выражать мысли, презентовать идеи, вести конструктивный диалог,
• уметь существовать в fast-paced окружении, иметь высокий уровень коллаборации и проактивности — мы стартап,
• иметь разговорный английский (общение на обыденные и технические темы).

Что нужно будет делать — развивать текущие проекты (пилить фичи, рефакторить) и улучшать data процессы (ETL). Мы открыты к предложениям — к процессам и подходам в разработке и команде в целом, инфраструктуре, инструментам.

Работа удаленнная (на период карантина), с последующей возможностью работать в офисе в Лиссабоне или Харькове, либо оставаться на remote.

The job ad is no longer active
Job unpublished on 17 October 2020

Look at the current jobs Data Science Kyiv→