Data Engineer в команду Integration (Migration)
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы строим отчётность, помогаем бизнесу проверять гипотезы и принимать решения, а также выбирать эффективные способы достижения целей, основанные на этих данных.
Наша цель — сделать так, чтобы новичок мог самостоятельно, без помощи инженеров находить ответы в данных и настраивать новые пайплайны обработки данных под свои цели.
Примеры будущих задач:
Мы находимся в процессе миграции наших расчетов с Vertica на Trino.. Мы не просто меняем одну СУБД на другую. Мы меняем модель хранилища данных с монолитного центрально хранилища на эластичную модель lakehouse с более гибкими возможностями по масштабированию и изоляции расчетов.
Наши вызовы - сделать работу аналитиков с Trino такой же привычной и удобной как работу с Vertica, начать давать гарантии готовности данных к сроку, оптимизировать модель хранения данных. Нам нужно быть быстрыми и удобными для аналитиков, научиться гибко управлять ресурсами хранилища.
Вам предстоит:
- перевести критичные расчеты на Trino;
- оптимизировать запросы, модель данных в расчетах, ускорить обращение к данным в ceph и метаданным в hive;
- сделать Trino основным местом для создания новых расчетов в хранилище.
Мы ждём, что вы:
- имеете опыт работы с аналитическими СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Presto, Trino и др.);
- знаете что для СУБД значит выполнить SQL-запрос и понимаете как оптимизировать аналитические запросы;
- имеете опыт разработки пайплайнов обработки данных.
Будет здорово, если вы:
- уже работали с Trino или Presto;
- понимаете необходимость моделирования данных;
- имеете опыт оптимизации потребления ресурсов;
- знаете и умеете писать на java или python.