Data Scientist в команду LLM

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Наша команда занимается обучением своей базовой LLM и применяет её к разным бизнес-задачам Авито.

Для разработки базовой модели мы адаптируем лучшие open source модели под русский язык и домен Авито с помощью Continual Pre-training и подмены токенизатора. Об этом можно почитать в статье на Хабре:

→ Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений.

Для улучшения модели мы исследуем новые методы и датасеты. А чтобы все в команде были на одной волне, у нас есть LLM-семинары, на которых мы обсуждаем самые интересные статьи.

Уже сейчас с помощью LLM мы выполнили много интересных и полезных задач для Авито. Вот несколько примеров продуктов, где нам уже удалось внедрить LLM:

-      Генерация описания. В некоторых категориях Авито уже не обязательно готовить описание объявления самостоятельно — можно взять сгенерированный текст от LLM.

-      Модификация отчётов Автотеки. Данные для них Авито получает от партнёров, которые часто пользуются непонятными для обычных людей формулировками и сокращениями. Мы обучили LLM их расшифровывать.

-      Суммаризация чатов агентов поддержки. Когда у агента не получается справиться с проблемой, он может передать её более опытному коллеге. Для этого нужно кратко описать содержание чата с пользователем. Теперь это может делать LLM.

-      Модификация сообщений агентов поддержки. Мы обучили LLM перефразировать некоторые сообщения агентов поддержки, чтобы сделать их более эмпатичными и исправить ошибки.

-      Саджесты в мессенджере. Когда пишете сообщение на Авито, вы можете встретить всплывающие подсказки от LLM — они помогут удобнее и быстрее общаться в чате.

Сейчас мы ищем DS-инженера, чтобы усилить нашу команду.

Вам предстоит:

-      реализовывать LLM-ассистента в мессенджере;

-      разрабатывать code copilot для разработчиков Авито;

-      улучшать внутреннюю LLM.

Мы ждём, что вы:

-      понимаете, как устроены основные ML-алгоритмы (от решающих деревьев до трансформеров);

-      имеете опыт работы и внедрения ML-моделей в продакшен;

-      знаете Python;

-      понимаете, как устроены LLM, следите за всеми трендами AI;

-      работали с современными NLP-моделями.

Будет здорово, если вы:

-      занимали высокие места в соревнованиях по машинному обучению;

-      пользовались инструментами для ведения экспериментов: Weights & Biases, MLflow, DVC и др.

Работа у нас — это:

— возможность улучшать опыт миллионов пользователей;

— интересные и сложные задачи на большом масштабе;

— сильная команда, которая всегда готова прийти на помощь;

— возможность изучать и пробовать новое, мощное железо для этого;

— бюджет на обучение, который можно тратить на курсы или профессиональную литературу;

— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;

— возможность работать удалённо или из офисов в четырёх городах России.