Data Engineer в команду Datamart

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы хотим построить инструмент, в котором аналитики могут самостоятельно, не прибегая помощи инженеров dwh, находить ответы в данных, проверять гипотезы и принимать бизнес-решения.

Наша цель — предоставлять платформу для решения задач, связанных с исследованиями, операционной отчетностью и продовыми интеграциями, обеспечивая изоляцию обработки и необходимый уровень доступности и качества данных.

Примеры будущих задач:

  • поиск и оптимизация неэффективного использования ресурсов: выделение технических операций в отдельные треки, автоматизация проверок и рекомендаций по созданию эффективных пайплайнов;
  • поиск и оптимизация критических путей до важных расчетов: оптимизация sql запросов построения витрин, оптимизация модели данных для эффективного распараллеливания заданий;
  • повышение отказоустойчивости: настройка проверок на дата пайплайны, оптимизация процесса репликации данных;
  • доработка и внедрение расчетов на Trino, Clickhouse
  • доработка систем тестирования на новые движки.

Вам предстоит:

  • уменьшение времени на расчет дата пайплайнов;
  • разработка инструментов для встраивания и поддержки пайплайнов обработки данных аналитиками;
  • обеспечение отказоустойчивости в работе с хранилищем данных;
  • уменьшение waste time при использовании self-service инструментов;
  • масштабируемое хранилище - обеспечить создание, выполнение заданий при разделении хранения данных и вычислений над ними.

Мы ждём, что вы:

  • знаете и умеете писать на Python;
  • проектировали или отвечали за компоненты различных систем;
  • знаете и не боитесь применять SQL.

Будет здорово, если вы:

  • работали с кластерными СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Trino и др.);
  • понимаете, что такое хранилище данных;
  • разбираетесь в принципе оптимизации кода, работающего с большим объёмом данных;
  • работали с инструментами интеграции данных (data bricks, dbt, ksql);
  • работали с инструментами оркестрации (airflow, dagster, prefect);
  • работали с инструментами CI/CD.

Работа у нас — это:

— интересные и важные задачи на очень большом проекте;

— передовые технологии и подходы, возможность пробовать новое;

— опытные и заинтересованные коллеги, готовые оказать поддержку;

— возможность приносить пользу миллионам пользователей, реализуя решения, основанные на данных;

— личный бюджет на обучение, который можно тратить на книги, курсы и конференции;

— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;

— возможность работать удаленно и по желанию посещать комфортный офис в Москве или Санкт-Петербурге.