Data Scientist в команду автомодерации

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Команда автомодерации (Trust & Safety) отвечает за качество и безопасность контента на Авито. Наша цель — не допускать нежелательный контент к пользователям и делать платформу надёжной и безопасной.

Мы разрабатываем и поддерживаем ML-систему проверки объявлений (текст, фото, параметры), которая уже помогает автоматизировать большую часть проверок и снижать нагрузку на ручную модерацию. Сейчас команда запускает новый проект внутри направления автомодерации. В нём будет много задач с нуля, свобода в выборе подходов и возможность заметно повлиять на продукт. При этом мы опираемся на существующие решения и будем постепенно развивать их под новые требования.

Мы ищем Full-stack Data Scientist, который ведёт ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.

Примеры будущих задач:

–       повышать качество автомодерации на уровне продукта;

–       выбирать оптимальный подход под задачу и риск: от правил/регулярок и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-импакта и стоимости решения);

–       готовить данные и датасеты: сбор, разметка/правила, генерация обучающих выборок, контроль качества данных;

–       разрабатывать модели модерации текста (≈80%) и изображений (≈20%), комбинировать сигналы из текста, фото и параметров объявления;

–       встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в проде;

–       настраивать мониторинг качества и деградаций во времени, алёрты и регулярные итерации улучшений;

–       оценивать влияние решений на продукт и бизнес-метрики.

Мы ждём, что вы:

–       умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB или эквивалентные подходы);

–       имеете большой опыт в NLP или значимый опыт вывода и сопровождения моделей в продакшене;

–       уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);

–       понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;

–       умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);

–       пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;

–       читаете англоязычную техническую литературу.

Будет здорово, если вы:

–       имеете опыт в модерации, Trust & Safety, антифроде;

–       знакомы с практиками MLOps: Kubeflow, K8s, feature store, MLflow;

–       настраивали мониторинг/алёрты (Grafana), участвовали в AB и канареечных релизах;

–       использовали LLM в прикладных задачах;

–       работали с CV или мультимодальными задачами (VLM).

Работа у нас — это:

— возможность влиять на бизнес и развитие продукта;

— интересные и разнообразные задачи: аналитики в Авито ищут точки роста бизнеса, изучают поведение пользователей, придумывают фреймворки и настраивают дашборды;

— много качественных данных, мощная инфраструктура и инструменты, любое необходимое железо — всё готово для продуктивной работы;

— талантливая команда, крутая аналитическая культура и сообщество профессионалов;

— прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;

— личный бюджет на обучение, который можно тратить на книги, курсы и конференции;

— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;

— удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид центр города, места для уединённой работы и зоны отдыха.

Поделиться
Скопировать ссылку Вконтакте Telegram WhatsApp