Data Engineer в команду Datamart

Вакансия закрыта. Посмотреть похожие

Локация Москва, офис и удаленно

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы хотим построить инструмент, в котором аналитики могут самостоятельно, не прибегая помощи инженеров dwh, находить ответы в данных, проверять гипотезы и принимать бизнес-решения.

Наша цель — предоставлять платформу для решения задач, связанных с исследованиями, операционной отчетностью и продовыми интеграциями, обеспечивая изоляцию обработки и необходимый уровень доступности и качества данных.

Примеры будущих задач:

поиск и оптимизация неэффективного использования ресурсов: выделение технических операций в отдельные треки, автоматизация проверок и рекомендаций по созданию эффективных пайплайнов;
поиск и оптимизация критических путей до важных расчетов: оптимизация sql запросов построения витрин, оптимизация модели данных для эффективного распараллеливания заданий;
повышение отказоустойчивости: настройка проверок на дата пайплайны, оптимизация процесса репликации данных;
доработка и внедрение расчетов на Trino, Clickhouse
доработка систем тестирования на новые движки.

Вам предстоит:

уменьшение времени на расчет дата пайплайнов;
разработка инструментов для встраивания и поддержки пайплайнов обработки данных аналитиками;
обеспечение отказоустойчивости в работе с хранилищем данных;
уменьшение waste time при использовании self-service инструментов;
масштабируемое хранилище - обеспечить создание, выполнение заданий при разделении хранения данных и вычислений над ними.

Мы ждём, что вы:

знаете и умеете писать на Python;
проектировали или отвечали за компоненты различных систем;
знаете и не боитесь применять SQL.

Будет здорово, если вы:

работали с кластерными СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Trino и др.);
понимаете, что такое хранилище данных;
разбираетесь в принципе оптимизации кода, работающего с большим объёмом данных;
работали с инструментами интеграции данных (data bricks, dbt, ksql);
работали с инструментами оркестрации (airflow, dagster, prefect);
работали с инструментами CI/CD.