Data Engineer в команду Datamart
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы хотим построить инструмент, в котором аналитики могут самостоятельно, не прибегая помощи инженеров dwh, находить ответы в данных, проверять гипотезы и принимать бизнес-решения.
Наша цель — предоставлять платформу для решения задач, связанных с исследованиями, операционной отчетностью и продовыми интеграциями, обеспечивая изоляцию обработки и необходимый уровень доступности и качества данных.
Примеры будущих задач:
- поиск и оптимизация неэффективного использования ресурсов: выделение технических операций в отдельные треки, автоматизация проверок и рекомендаций по созданию эффективных пайплайнов;
- поиск и оптимизация критических путей до важных расчетов: оптимизация sql запросов построения витрин, оптимизация модели данных для эффективного распараллеливания заданий;
- повышение отказоустойчивости: настройка проверок на дата пайплайны, оптимизация процесса репликации данных;
- доработка и внедрение расчетов на Trino, Clickhouse
- доработка систем тестирования на новые движки.
Вам предстоит:
- уменьшение времени на расчет дата пайплайнов;
- разработка инструментов для встраивания и поддержки пайплайнов обработки данных аналитиками;
- обеспечение отказоустойчивости в работе с хранилищем данных;
- уменьшение waste time при использовании self-service инструментов;
- масштабируемое хранилище - обеспечить создание, выполнение заданий при разделении хранения данных и вычислений над ними.
Мы ждём, что вы:
- знаете и умеете писать на Python;
- проектировали или отвечали за компоненты различных систем;
- знаете и не боитесь применять SQL.
Будет здорово, если вы:
- работали с кластерными СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Trino и др.);
- понимаете, что такое хранилище данных;
- разбираетесь в принципе оптимизации кода, работающего с большим объёмом данных;
- работали с инструментами интеграции данных (data bricks, dbt, ksql);
- работали с инструментами оркестрации (airflow, dagster, prefect);
- работали с инструментами CI/CD.