Data Scientist в команду автоматической модерации

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Команда автоматической модерации разрабатывает и поддерживает сервис, обеспечивающий проверку контента, который создают наши пользователи. Это сложная система на основе алгоритмов машинного обучения, которая позволяет автоматизировать модерацию более чем 95% всех объявлений.

Сейчас мы ищем ML-инженеров различного уровня, которым предстоит заниматься улучшением алгоритмов автомодерации контента, который создают наши пользователи.

Примеры будущих задач:

— поиск запрещенного контента в текстах, на фото и видео;

— улучшение механизмов поиска дублей: как моделей первого уровня, выдающих топ-К наиболее похожих кандидатов, так и моделей, осуществляющих доранжирование выбранных кандидатов;

— выделение в текстах именованных сущностей (адреса, номера телефона, конкретные параметры товара);

— автоматизация переобучения моделей поиска нарушений;

— классификация изображений, а также детекция необходимых объектов;

— уменьшение потока объектов для ручной проверки асессорами, как за счёт использования новых подходов и алгоритмов, так и за счет актуализации имеющихся моделей или поиска эвристических улучшений;

— встраивание обученных моделей в пайплайны автомодерации.

Вам предстоит:

— улучшать алгоритмы поиска нарушений в сервисе, который обрабатывает тысячи объявлений в минуту;

— искать и находить нетривиальные и эффективные решения реальных бизнес-задач;

— постоянно улучшать имеющиеся средства поиска фрода, чтобы они соответствовали постоянно изменяющейся внешней среде;

— экспериментировать со state-of-the-art методами машинного обучения;

— разрабатывать и внедрять новые модели для решения продуктовых задач, взаимодействуя с талантливой командой разработчиков и аналитиков, а после внедрения улучшать их на основе данных и явного фидбэка от потребителей данных решений;

Мы ждём, что вы:

— обладаете глубоким пониманием ключевых методов, применяемых при решении задач машинного обучения, и границ применимости этих методов;

— имеете опыт решения различных Data Science-задач с использованием Python;

— работали с разными модальностями данных и понимаете, какие методы ML/DL применимы в конкретных бизнес-задачах;

— умеете оценивать не только качество моделей при запуске нового проекта, но и его изменение во времени;

— умеете писать SQL запросы;

— получили высшее образование в области вычислительной математики, статистики, анализа данных и т.п.;

— владеете английским языком на уровне, как минимум, позволяющем бегло читать специализированную литературу.

Будет здорово, если вы:

— участвовали в различных открытых соревнованиях по анализу данных;

— проектировали и внедряли системы машинного обучения для автоматизации процессов и получили измеримые результаты этого внедрения;

— умеете обращаться с системами управления версиями (например, git), склонны документировать свои наработки, а также описывать и всесторонне критически оценивать результаты проведённых экспериментов.

Работа у нас — это:

— возможность улучшать опыт миллионов пользователей;

— интересные и сложные задачи на большом масштабе;

— сильная команда, которая всегда готова прийти на помощь;

— возможность изучать и пробовать новое, мощное железо для этого;

— бюджет на обучение, который можно тратить на курсы или профессиональную литературу;

— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;

— возможность работать удалённо или из офисов в четырёх городах России.