Data Scientist в команду Horizontal ML Technologies

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Наша команда создаёт и развивает технологии, которые используются во всем Авито. Мы отвечаем за распознавание и синтез звука, OCR, ряд продуктовых метрик, создаём модели для маркетинга. Мы тщательно подходим к сбору и разметке данных, проводим различные исследования, обучаем свои модели, пишем высоконагруженные сервисы, занимаемся аналитикой.

Мы ищем талантливого коллегу, который усилит стрим Звука. Работа будет разнообразной — от проведения исследований до вывода моделей Звука в продакшен.

Примеры будущих задач:

—    исследовать научные статьи и тренды для поиска новых эффективных подходов к решению задач в Звуке, проводить эксперименты, внедрять лучшие практики в продакшен;

—    разрабатывать алгоритмы и акустические модели распознавания речи, в том числе для потокового распознавания и на иностранных языках;

—    разрабатывать языковые модели для улучшения качества транскрибации;

создавать датасеты для обучения и валидации (есть асессоры и внутренний инструмент для разметки).

Мы ждём, что вы:

—    обладаете широкой насмотренностью и опытом работы в области обработки речи (ASR/TTS);

—    пишете хороший, поддерживаемый, тестируемый и масштабируемый код на Python;

—    имеете продакшен-опыт в домене NLP (PyTorch, Docker и др.);

—    глубоко понимаете алгоритмы обучения моделей для распознавания звука, знакомы с основными фреймворками (NeMo, ESPnet, fairseq);

—    имеете опыт сбора качественных данных для обучения моделей распознавания звука, работали с асессорами;

—    при необходимости можете самостоятельно собрать разметку, в том числе с помощью опенсорс-моделей и LLM.

Будет здорово, если вы:

—    имеете научные публикации или проекты на GitHub;

—    имеете опыт реализации моделей, описанных в научных статьях, в домене STT/TTS;

—    имеете более года рабочего опыта в STT/TTS.

Работа у нас — это:

—    возможность улучшать опыт миллионов пользователей;

—    интересные и сложные задачи на большом масштабе;

—    сильная команда, которая всегда готова прийти на помощь;

—    возможность изучать и пробовать новое, мощное железо для этого;

—    бюджет на обучение, который можно тратить на курсы или профессиональную литературу;

—    забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;

—    возможность работать удалённо или из офисов в четырёх городах России.

Поделиться
Скопировать ссылку Вконтакте Telegram WhatsApp