Data Scientist в команду Horizontal ML Technologies
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Наша команда создаёт и развивает технологии, которые используются во всем Авито. Мы отвечаем за распознавание и синтез звука, OCR, ряд продуктовых метрик, создаём модели для маркетинга. Мы тщательно подходим к сбору и разметке данных, проводим различные исследования, обучаем свои модели, пишем высоконагруженные сервисы, занимаемся аналитикой.
Мы ищем талантливого коллегу, который усилит стрим Звука. Работа будет разнообразной — от проведения исследований до вывода моделей Звука в продакшен.
Примеры будущих задач:
— исследовать научные статьи и тренды для поиска новых эффективных подходов к решению задач в Звуке, проводить эксперименты, внедрять лучшие практики в продакшен;
— разрабатывать алгоритмы и акустические модели распознавания речи, в том числе для потокового распознавания и на иностранных языках;
— разрабатывать языковые модели для улучшения качества транскрибации;
создавать датасеты для обучения и валидации (есть асессоры и внутренний инструмент для разметки).
Мы ждём, что вы:
— обладаете широкой насмотренностью и опытом работы в области обработки речи (ASR/TTS);
— пишете хороший, поддерживаемый, тестируемый и масштабируемый код на Python;
— имеете продакшен-опыт в домене NLP (PyTorch, Docker и др.);
— глубоко понимаете алгоритмы обучения моделей для распознавания звука, знакомы с основными фреймворками (NeMo, ESPnet, fairseq);
— имеете опыт сбора качественных данных для обучения моделей распознавания звука, работали с асессорами;
— при необходимости можете самостоятельно собрать разметку, в том числе с помощью опенсорс-моделей и LLM.
Будет здорово, если вы:
— имеете научные публикации или проекты на GitHub;
— имеете опыт реализации моделей, описанных в научных статьях, в домене STT/TTS;
— имеете более года рабочего опыта в STT/TTS.
Работа у нас — это:
— возможность улучшать опыт миллионов пользователей;
— интересные и сложные задачи на большом масштабе;
— сильная команда, которая всегда готова прийти на помощь;
— возможность изучать и пробовать новое, мощное железо для этого;
— бюджет на обучение, который можно тратить на курсы или профессиональную литературу;
— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
— возможность работать удалённо или из офисов в четырёх городах России.