Data Scientist в команду Deep Personalization
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Мы отвечаем за персонализацию главной страницы Авито — подбираем объявления для десятков миллионов пользователей так, чтобы каждый видел максимально релевантный контент. Мы развиваем двухбашенные трансформерные модели, работаем со state-of-the-art подходами в recommendation systems и ведём полный цикл разработки: от исследования архитектур до продакшен-инференса с ANN-поиском и кэшированием эмбеддингов.
Пример нашей работы: https://www.youtube.com/watch?v=Fn-mTFuRpHU — доклад на DataFest о двухбашенных моделях для персонализации.
Примеры будущих задач:
Вам предстоит:
– проектировать и поддерживать ETL-пайплайны на Spark для обработки миллиардов событий;
– строить витрины данных и управлять их качеством;
– оптимизировать распределённую подготовку обучающих датасетов;
– развивать архитектуру двухбашенной трансформерной модели: улучшать энкодеры пользователей и айтемов, экспериментировать с обработкой изображений и функциями потерь;
– исследовать и адаптировать современные подходы: sequence modeling, multimodal encoders, advanced retrieval architectures;
– масштабировать обучение на multi-GPU/multi-node, оптимизировать throughput и конвергенцию;
– интегрировать модели в продакшен: экспорт в ONNX, настройка ANN-индексов, работа с Redis;
– проводить AB-тесты, анализировать влияние на метрики (CTR, конверсии, retention);
– итерировать на основе результатов экспериментов.
Мы ждём, что вы:
– хорошо понимаете deep learning: обучали трансформеры, seq2seq или двухбашенные модели в продакшене;
– уверенно владеете PyTorch и имеете опыт работы с большими объёмами данных;
– понимаете распределённое обучение (DDP, FSDP) и умеете отлаживать пайплайны;
– имеете опыт формулирования гипотез, дизайна экспериментов и интерпретации AB-тестов.
Будет здорово, если вы:
– имеете опыт в области recommendation systems или information retrieval;
– работаете с PySpark/SQL для обработки больших данных;
– знакомы с современными исследованиями в области recommendations (Tiger, DSSM, контрастивное обучение).
Работа у нас — это:
– возможность влиять на бизнес и развитие продукта;
– интересные и разнообразные задачи: аналитики в Авито ищут точки роста бизнеса, изучают поведение пользователей, придумывают фреймворки и настраивают дашборды;
– много качественных данных, мощная инфраструктура и инструменты, любое необходимое железо — всё готово для продуктивной работы;
– талантливая команда, крутая аналитическая культура и сообщество профессионалов;
– прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
– личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
– забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид центр города, места для уединённой работы и зоны отдыха.