Data Scientist в команду автомодерации

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Команда автомодерации (Trust & Safety) отвечает за то, чтобы пользователи Авито не сталкивались с нежелательным контентом, а платформа оставалась надёжной и безопасной.

Мы разрабатываем и поддерживаем ML-систему проверки объявлений по тексту, фото и параметрам — она уже автоматизирует большую часть проверок и снижает нагрузку на ручную модерацию.

Сейчас мы ищем фулстек-специалиста Data Science на стыке двух направлений: бизнес-задач вертикали Авито Услуги и платформенной задачи дедупликации. Предстоит вести ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.

Примеры будущих задач:

— повышать качество автомодерации на уровне продукта (фокус — вертикаль Авито Услуги; например, проверка соответствия категории объявления);

— развивать платформенную систему поиска дублей и почти дубликатов, а также смежные задачи: подмена контента, искусственные рефреши объявлений;

— выбирать оптимальный подход под задачу и риск: от правил и регулярных выражений и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-эффекта и стоимости решения);

— готовить данные и датасеты: сбор, разметка и правила, генерация обучающих выборок, контроль качества данных;

— разрабатывать модели модерации текста (≈ 80%) и изображений (≈ 20%), комбинировать сигналы из текста, фото и параметров объявления;

— встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в продакшене;

— настраивать мониторинг качества и деградаций во времени, алерты и регулярные итерации улучшений;

— оценивать влияние решений на продукт и бизнес-метрики.

Будет здорово, если вы:

— умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB-тест или эквивалентные подходы);

— имеете опыт в NLP или опыт вывода и сопровождения моделей в продакшене;

— уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);

— понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;

— умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);

— пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;

— читаете англоязычную техническую литературу.

Москва, ул. Лесная, 7
Поделиться
Скопировать ссылку Вконтакте Telegram WhatsApp