Data Scientist в команду автоматической модерации
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Команда автоматической модерации разрабатывает и поддерживает сервис, обеспечивающий проверку контента, который создают наши пользователи. Это сложная система на основе алгоритмов машинного обучения, которая позволяет автоматизировать модерацию более чем 95% всех объявлений.
Сейчас мы ищем ML-инженеров различного уровня, которым предстоит заниматься улучшением алгоритмов автомодерации контента, который создают наши пользователи.
Примеры будущих задач:
— поиск запрещенного контента в текстах, на фото и видео;
— улучшение механизмов поиска дублей: как моделей первого уровня, выдающих топ-К наиболее похожих кандидатов, так и моделей, осуществляющих доранжирование выбранных кандидатов;
— выделение в текстах именованных сущностей (адреса, номера телефона, конкретные параметры товара);
— автоматизация переобучения моделей поиска нарушений;
— классификация изображений, а также детекция необходимых объектов;
— уменьшение потока объектов для ручной проверки асессорами, как за счёт использования новых подходов и алгоритмов, так и за счет актуализации имеющихся моделей или поиска эвристических улучшений;
— встраивание обученных моделей в пайплайны автомодерации.
Вам предстоит:
— улучшать алгоритмы поиска нарушений в сервисе, который обрабатывает тысячи объявлений в минуту;
— искать и находить нетривиальные и эффективные решения реальных бизнес-задач;
— постоянно улучшать имеющиеся средства поиска фрода, чтобы они соответствовали постоянно изменяющейся внешней среде;
— экспериментировать со state-of-the-art методами машинного обучения;
— разрабатывать и внедрять новые модели для решения продуктовых задач, взаимодействуя с талантливой командой разработчиков и аналитиков, а после внедрения улучшать их на основе данных и явного фидбэка от потребителей данных решений;
Мы ждём, что вы:
— обладаете глубоким пониманием ключевых методов, применяемых при решении задач машинного обучения, и границ применимости этих методов;
— имеете опыт решения различных Data Science-задач с использованием Python;
— работали с разными модальностями данных и понимаете, какие методы ML/DL применимы в конкретных бизнес-задачах;
— умеете оценивать не только качество моделей при запуске нового проекта, но и его изменение во времени;
— умеете писать SQL запросы;
— получили высшее образование в области вычислительной математики, статистики, анализа данных и т.п.;
— владеете английским языком на уровне, как минимум, позволяющем бегло читать специализированную литературу.
Будет здорово, если вы:
— участвовали в различных открытых соревнованиях по анализу данных;
— проектировали и внедряли системы машинного обучения для автоматизации процессов и получили измеримые результаты этого внедрения;
— умеете обращаться с системами управления версиями (например, git), склонны документировать свои наработки, а также описывать и всесторонне критически оценивать результаты проведённых экспериментов.