Data Engineer в команду Datamart

Вакансия закрыта. Посмотреть похожие

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы хотим построить инструмент, в котором аналитики могут самостоятельно, не прибегая помощи инженеров dwh, находить ответы в данных, проверять гипотезы и принимать бизнес-решения.

Наша цель — предоставлять платформу для решения задач, связанных с исследованиями, операционной отчетностью и продовыми интеграциями, обеспечивая изоляцию обработки и необходимый уровень доступности и качества данных.

Примеры будущих задач:

  • поиск и оптимизация неэффективного использования ресурсов: выделение технических операций в отдельные треки, автоматизация проверок и рекомендаций по созданию эффективных пайплайнов;
  • поиск и оптимизация критических путей до важных расчетов: оптимизация sql запросов построения витрин, оптимизация модели данных для эффективного распараллеливания заданий;
  • повышение отказоустойчивости: настройка проверок на дата пайплайны, оптимизация процесса репликации данных;
  • доработка и внедрение расчетов на Trino, Clickhouse
  • доработка систем тестирования на новые движки.

Вам предстоит:

  • уменьшение времени на расчет дата пайплайнов;
  • разработка инструментов для встраивания и поддержки пайплайнов обработки данных аналитиками;
  • обеспечение отказоустойчивости в работе с хранилищем данных;
  • уменьшение waste time при использовании self-service инструментов;
  • масштабируемое хранилище - обеспечить создание, выполнение заданий при разделении хранения данных и вычислений над ними.

Мы ждём, что вы:

  • знаете и умеете писать на Python;
  • проектировали или отвечали за компоненты различных систем;
  • знаете и не боитесь применять SQL.

Будет здорово, если вы:

  • работали с кластерными СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Trino и др.);
  • понимаете, что такое хранилище данных;
  • разбираетесь в принципе оптимизации кода, работающего с большим объёмом данных;
  • работали с инструментами интеграции данных (data bricks, dbt, ksql);
  • работали с инструментами оркестрации (airflow, dagster, prefect);
  • работали с инструментами CI/CD.