Senior Machine Learning Engineer Offline

CASAFARI это самая большая и чистая база данных рынка недвижимости в Португалии, Испании, Италии и Франции. Мы собираем больше 580,000 объявлений в месяц, информация из которых проверяется и улучшается моделями машинного обучения. На основе данных мы строим разные продукты, которые приносят прибыль: метапоиск (как Skyscanner для перелетов), анализ рынка, оценка недвижимости и нахождение аналогов онлайн и через API.

 

Мы в цифрах:

• более 17 миллионов собранных и проанализированных объявлений о недвижимости,

• 42 миллиона изменений цен или статуса объектов недвижимости,

• 270 миллионов картинок в базе данных,

• нами пользуются больше 8,000 профессионалов (инвесторы, консультанты, управляющие активами, оценщики, работники агентств недвижимости) каждый день,

• в 3х наших офисах работают представители больше 14 национальностей.

 

Задачи, которые мы решаем, относятся к NLP, computer vision, clustering, classification и deep learning:

• ежедневный сбор и анализ данных (краулер и парсер) из нескольких тысяч источников,

• поиск аномалий во время сбора и первичной обработки данных,

• определение типа (квартира или дома) недвижимости и ее локации,

• выявление характеристик дома из неструктурированного текста,

• поиск дубликатов объектов недвижимости с разными вводными данными (цены, площадь, тип, картинки и т.д.),

• состояние (новый, старый),

• реальные или сгенерированные компьютером фото объявлений,

• классификация картинок (кухня, спальня, ванная комната, бассейн),

• алгоритмы для анализа рынка (маркет аналитика), с учетом и без выбросов,

• модели оценки недвижимости и выбора аналогов,

• построение и оптимизация инвестиционного портфеля.

 

Наш технологический стек и требования:

Python 3,

pandas,

Scikit-learn,

XGBoost,

PyTorch,

MySQL и MongoDB.

Если вы с чем-то не работали или работали с аналогами (например, TensorFlow и Keras вместо PyTorch), не стесняйтесь откликнуться на вакансию.

 

Также:

• мы используем ELK для аналитики как работают модели в production,

• наши проекты прогоняются через Jenkins и деплоятся в Kubernetes кластер,

• пишем тесты с pytest (стремимся покрывать 100% функциональности),

• следим за качеством кода с помощью linters и code analysis, code review, заимствуем best practices у команды разработчиков,

• храним код на Github.

 

Для этой роли необходимо:

• знать математическую статистику,

• критически мыслить, уметь выражать мысли, презентовать идеи, вести конструктивный диалог,

• уметь существовать в fast-paced окружении, иметь высокий уровень коллаборации и проактивности — мы стартап,

• иметь разговорный английский (общение на обыденные и технические темы).

 

Что нужно будет делать — развивать текущие проекты (пилить фичи, рефакторить) и улучшать data процессы (ETL). Мы открыты к предложениям — к процессам и подходам в разработке и команде в целом, инфраструктуре, инструментам.

 

Работа удаленнная (на период карантина), с последующей возможностью работать в офисе в Лиссабоне или Харькове, либо оставаться на remote.

The job ad is no longer active
Job unpublished on 17 October 2020

Look at the current jobs Data Science Kyiv→

Loading...