Data Scientist в команду автомодерации
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Команда автомодерации (Trust & Safety) отвечает за то, чтобы пользователи Авито не сталкивались с нежелательным контентом, а платформа оставалась надёжной и безопасной.
Мы разрабатываем и поддерживаем ML-систему проверки объявлений по тексту, фото и параметрам — она уже автоматизирует большую часть проверок и снижает нагрузку на ручную модерацию.
Сейчас мы ищем фулстек-специалиста Data Science на стыке двух направлений: бизнес-задач вертикали Авито Услуги и платформенной задачи дедупликации. Предстоит вести ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.
Примеры будущих задач:
— повышать качество автомодерации на уровне продукта (фокус — вертикаль Авито Услуги; например, проверка соответствия категории объявления);
— развивать платформенную систему поиска дублей и почти дубликатов, а также смежные задачи: подмена контента, искусственные рефреши объявлений;
— выбирать оптимальный подход под задачу и риск: от правил и регулярных выражений и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-эффекта и стоимости решения);
— готовить данные и датасеты: сбор, разметка и правила, генерация обучающих выборок, контроль качества данных;
— разрабатывать модели модерации текста (≈ 80%) и изображений (≈ 20%), комбинировать сигналы из текста, фото и параметров объявления;
— встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в продакшене;
— настраивать мониторинг качества и деградаций во времени, алерты и регулярные итерации улучшений;
— оценивать влияние решений на продукт и бизнес-метрики.
Будет здорово, если вы:
— умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB-тест или эквивалентные подходы);
— имеете опыт в NLP или опыт вывода и сопровождения моделей в продакшене;
— уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);
— понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;
— умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);
— пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;
— читаете англоязычную техническую литературу.