Data Scientist в команду автомодерации

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Команда автомодерации (Trust & Safety) отвечает за то, чтобы пользователи Авито не сталкивались с нежелательным контентом, а платформа оставалась надёжной и безопасной.

Мы разрабатываем и поддерживаем ML-систему проверки объявлений по тексту, фото и параметрам — она уже автоматизирует большую часть проверок и снижает нагрузку на ручную модерацию.

Сейчас мы ищем фулстек-специалиста Data Science на стыке двух направлений: бизнес-задач вертикали Авито Услуги и платформенной задачи дедупликации. Предстоит вести ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.

Примеры будущих задач:

— повышать качество автомодерации на уровне продукта (фокус — вертикаль Авито Услуги; например, проверка соответствия категории объявления);

— развивать платформенную систему поиска дублей и почти дубликатов, а также смежные задачи: подмена контента, искусственные рефреши объявлений;

— выбирать оптимальный подход под задачу и риск: от правил и регулярных выражений и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-эффекта и стоимости решения);

— готовить данные и датасеты: сбор, разметка и правила, генерация обучающих выборок, контроль качества данных;

— разрабатывать модели модерации текста (≈ 80%) и изображений (≈ 20%), комбинировать сигналы из текста, фото и параметров объявления;

— встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в продакшене;

— настраивать мониторинг качества и деградаций во времени, алерты и регулярные итерации улучшений;

— оценивать влияние решений на продукт и бизнес-метрики.

Будет здорово, если вы:

— умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB-тест или эквивалентные подходы);

— имеете опыт в NLP или опыт вывода и сопровождения моделей в продакшене;

— уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);

— понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;

— умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);

— пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;

— читаете англоязычную техническую литературу.

Работа у нас — это:

— возможность влиять на бизнес и развитие продукта;

— интересные и разнообразные задачи: аналитики в Авито ищут точки роста бизнеса, изучают поведение пользователей, придумывают фреймворки и настраивают дашборды;

— много качественных данных, мощная инфраструктура и инструменты, любое необходимое железо — всё готово для продуктивной работы;

— талантливая команда, крутая аналитическая культура и сообщество профессионалов;

— прозрачная система премий, достойная зарплата, размер обсудим на собеседовании;

— личный бюджет на обучение, который можно тратить на книги, курсы и конференции;

— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;

— удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид центр города, места для уединённой работы и зоны отдыха.

Москва, ул. Лесная, 7
Поделиться
Скопировать ссылку Вконтакте Telegram WhatsApp