Data Scientist в команду автомодерации
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Команда автомодерации (Trust & Safety) отвечает за качество и безопасность контента на Авито. Наша цель — не допускать нежелательный контент к пользователям и делать платформу надёжной и безопасной.
Мы разрабатываем и поддерживаем ML-систему проверки объявлений (текст, фото, параметры), которая уже помогает автоматизировать большую часть проверок и снижать нагрузку на ручную модерацию. Сейчас команда запускает новый проект внутри направления автомодерации. В нём будет много задач с нуля, свобода в выборе подходов и возможность заметно повлиять на продукт. При этом мы опираемся на существующие решения и будем постепенно развивать их под новые требования.
Мы ищем Full-stack Data Scientist, который ведёт ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.
Примеры будущих задач:
– повышать качество автомодерации на уровне продукта;
– выбирать оптимальный подход под задачу и риск: от правил/регулярок и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-импакта и стоимости решения);
– готовить данные и датасеты: сбор, разметка/правила, генерация обучающих выборок, контроль качества данных;
– разрабатывать модели модерации текста (≈80%) и изображений (≈20%), комбинировать сигналы из текста, фото и параметров объявления;
– встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в проде;
– настраивать мониторинг качества и деградаций во времени, алёрты и регулярные итерации улучшений;
– оценивать влияние решений на продукт и бизнес-метрики.
Мы ждём, что вы:
– умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB или эквивалентные подходы);
– имеете большой опыт в NLP или значимый опыт вывода и сопровождения моделей в продакшене;
– уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);
– понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;
– умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);
– пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;
– читаете англоязычную техническую литературу.
Будет здорово, если вы:
– имеете опыт в модерации, Trust & Safety, антифроде;
– знакомы с практиками MLOps: Kubeflow, K8s, feature store, MLflow;
– настраивали мониторинг/алёрты (Grafana), участвовали в AB и канареечных релизах;
– использовали LLM в прикладных задачах;
– работали с CV или мультимодальными задачами (VLM).
Работа у нас — это:
— возможность влиять на бизнес и развитие продукта;
— интересные и разнообразные задачи: аналитики в Авито ищут точки роста бизнеса, изучают поведение пользователей, придумывают фреймворки и настраивают дашборды;
— много качественных данных, мощная инфраструктура и инструменты, любое необходимое железо — всё готово для продуктивной работы;
— талантливая команда, крутая аналитическая культура и сообщество профессионалов;
— прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
— личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
— удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид центр города, места для уединённой работы и зоны отдыха.