Data Engineer в команду Datamart

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Наша команда инженеров помогает аналитикам выполнять свои задачи быстро и качественно, используя принятые в компании решения, инструменты и стандарты. Мы фокусируемся на выявлении текущих проблем и потребностей аналитиков, чтобы предложить им эффективные решения, упрощающие их повседневные задачи.

Описание IT-решения:

  • основной стек: Python, Vertica, Trino и CEPH;
  • мы пишем новые сервисы на внутренней платформе Авито;
  • более 2500 дата-пайплайнов, около 200 аналитиков в месяц, 30 изменений в день;
  • legacy: много, но в разумных масштабах, новые компоненты пишем на общей платформе.

Примеры будущих задач:

Разрабатывать тесты для SQL-кода обработки данных:

  • Автоматические проверки синтаксиса, перфоманса и бизнес-правил с учётом специфики движков:

    • пример: запрет на внесение циклов по зависимостям при публикации расчёта;
    • пример: анализ метрик mem/cpu при тестовом прогоне и сравнение с порогами и предыдущими расчётами.
  • Создание гайдлайнов по оптимизации SQL-запросов и модели данных и их оптимизация:

    • пример: тестирование неоптимальных операций по паттернам в запросе и explain-плане.
  • Автоматические проверки по мотивам postmortem для обеспечения стабильности.

Развивать пользовательский опыт использования self-service инструментов:

  • написание тестов с понятными критериями прохождения;
  • создание автоматических рекомендаций к исправлению ошибок и оптимизации перфоманса.

Принимать участие в работе с аналитиками по опыту использования инструментов:

  • помощь с неавтоматизированной частью, ответы на вопросы, поддержка.

Вам предстоит:

  • Разработать инструменты для self-service встраивания и поддержки пайплайнов обработки данных аналитиками;
  • Уменьшить время на создание дата-пайплайнов от идеи до данных в проде;
  • Обеспечить создание масштабируемого хранилища, выполнение заданий при разделении хранения данных и вычислений над ними;
  • Интегрировать системы тестирования и деплоймента в jupyter-like IDE.

Мы ждём, что вы:

  • Имеете опыт работы с ClickHouse/Vertica/Trino/Greenplum;
  • Умеете программировать на Python;
  • Понимаете, как работают Git/Bitbucket/TeamCity;
  • Отлично знаете SQL в OLAP-специфике;
  • Любите разбираться в том, как работают аналитические системы;
  • Умеете находить ответы на вопросы с помощью метрик и аналитики.

Будет здорово, если вы:

  • Имеете опыт автоматизации, упрощения рутинных задач создания дата-пайплайнов;
  • Имеете опыт работы с Airflow/Dagster или другим решением подобного класса;
  • Имеете опыт выбора, развертывания и поддержки аналитических инструментов.
Поделиться
Скопировать ссылку Вконтакте Telegram WhatsApp