Data Engineer в команду Integration (Migration)

Вакансия закрыта. Посмотреть похожие

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы строим отчётность, помогаем бизнесу проверять гипотезы и принимать решения, а также выбирать эффективные способы достижения целей, основанные на этих данных.

Наша цель — сделать так, чтобы новичок мог самостоятельно, без помощи инженеров находить ответы в данных и настраивать новые пайплайны обработки данных под свои цели.

Примеры будущих задач:

Мы находимся в процессе миграции наших расчетов с Vertica на Trino.. Мы не просто меняем одну СУБД на другую. Мы меняем модель хранилища данных с монолитного центрально хранилища на эластичную модель lakehouse с более гибкими возможностями по масштабированию и изоляции расчетов.

Наши вызовы - сделать работу аналитиков с Trino такой же привычной и удобной как работу с Vertica, начать давать гарантии готовности данных к сроку, оптимизировать модель хранения данных. Нам нужно быть быстрыми и удобными для аналитиков, научиться гибко управлять ресурсами хранилища.

Вам предстоит:

  • перевести критичные расчеты на Trino; 
  • оптимизировать запросы, модель данных в расчетах, ускорить обращение к данным в ceph и метаданным в hive;
  • сделать Trino основным местом для создания новых расчетов в хранилище.

Мы ждём, что вы:

  • имеете опыт работы с аналитическими СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Presto, Trino и др.);
  • знаете что для СУБД значит выполнить SQL-запрос и понимаете как оптимизировать аналитические запросы;
  • имеете опыт разработки пайплайнов обработки данных.

Будет здорово, если вы:

  • уже работали с Trino или Presto;
  • понимаете необходимость моделирования данных; 
  • имеете опыт оптимизации потребления ресурсов;
  • знаете и умеете писать на java или python.