Data scientist в команду автоматического определения параметров

Вакансия закрыта. Посмотреть похожие

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

В Авито появляется всё больше новых категорий, каждая из которых продвигается по уровням зрелости, приближается к market normal и запускает новые продукты. Развитие категорий невозможно без качественного покрытия контента параметрами. Поэтому мы в команде item2param разрабатываем платформу для обучения и инференса ML моделей, которые извлекают признаки объявлений. Уже сейчас на базе платформы любой Data Scientist компании может обучить и выкатить в продакшен свою модель. Результаты работы моделей используют десятки команд Авито: для модерации категории объявления, автозаполнения параметров на подаче, определения типа ремонта по фото в недвижимости и многого другого. С одной стороны мы используем самые последние модели, чтобы добиваться лучшего качества, с другой - оптимизируем инференс, чтобы держать реал-тайм нагрузку.

Так как число запросов на модели растет, то перед нами стоит цель снизить порог входа на платформу: сделать так, чтобы свою модель мог добавить любой сотрудник без навыков ML - только за счёт разметки датасета используя готовые инструменты.

Примеры будущих задач:

– Улучшение качества текущих базовых моделей: текстовые, картиночные и мультимодальные трансформеры;

– Автоматизация обучения: настраивание пайплайнов для сбора данных, переобучения и мониторинга качества;

– Доработка пайплайнов разметки с использованием LLM;

–Масштабирование и оптимизация сервиса под растущую нагрузку (тысячи запросов в секунду) и под новые модели;

–Добавление новых сценариев: например, возможности определения параметров со свободным полем ввода(задача ner);

– Менторинг младших коллег и помощь с их развитием.

Мы ждём, что вы:

– Имеете опыт реализации и эксплуатации ML решений от 4 лет, в том числе опыт в задачах DL для текстов и/или картинок не менее 2-ух лет;

– Умеете размечать данные для своих задач;

– Работали с микросервисами на Python, Docker’ом, SQL и noSQL базами.

Будет здорово, если вы:

– Имеете опыт управления командой и/или опыт менторства младших коллег;

– Работали с мультимодальными моделями;

– Разбираетесь в Airflow и MLflow или в аналогичных MLOps инструментах.