Data Engineer в команду Datamart
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Наша команда инженеров помогает аналитикам выполнять свои задачи быстро и качественно, используя принятые в компании решения, инструменты и стандарты. Мы фокусируемся на выявлении текущих проблем и потребностей аналитиков, чтобы предложить им эффективные решения, упрощающие их повседневные задачи.
Описание IT-решения:
- основной стек: Python, Vertica, Trino и CEPH;
- мы пишем новые сервисы на внутренней платформе Авито;
- более 2500 дата-пайплайнов, около 200 аналитиков в месяц, 30 изменений в день;
- legacy: много, но в разумных масштабах, новые компоненты пишем на общей платформе.
Примеры будущих задач:
Разрабатывать тесты для SQL-кода обработки данных:
Автоматические проверки синтаксиса, перфоманса и бизнес-правил с учётом специфики движков:
- пример: запрет на внесение циклов по зависимостям при публикации расчёта;
- пример: анализ метрик mem/cpu при тестовом прогоне и сравнение с порогами и предыдущими расчётами.
Создание гайдлайнов по оптимизации SQL-запросов и модели данных и их оптимизация:
- пример: тестирование неоптимальных операций по паттернам в запросе и explain-плане.
- Автоматические проверки по мотивам postmortem для обеспечения стабильности.
Развивать пользовательский опыт использования self-service инструментов:
- написание тестов с понятными критериями прохождения;
- создание автоматических рекомендаций к исправлению ошибок и оптимизации перфоманса.
Принимать участие в работе с аналитиками по опыту использования инструментов:
- помощь с неавтоматизированной частью, ответы на вопросы, поддержка.
Вам предстоит:
- Разработать инструменты для self-service встраивания и поддержки пайплайнов обработки данных аналитиками;
- Уменьшить время на создание дата-пайплайнов от идеи до данных в проде;
- Обеспечить создание масштабируемого хранилища, выполнение заданий при разделении хранения данных и вычислений над ними;
- Интегрировать системы тестирования и деплоймента в jupyter-like IDE.
Мы ждём, что вы:
- Имеете опыт работы с ClickHouse/Vertica/Trino/Greenplum;
- Умеете программировать на Python;
- Понимаете, как работают Git/Bitbucket/TeamCity;
- Отлично знаете SQL в OLAP-специфике;
- Любите разбираться в том, как работают аналитические системы;
- Умеете находить ответы на вопросы с помощью метрик и аналитики.
Будет здорово, если вы:
- Имеете опыт автоматизации, упрощения рутинных задач создания дата-пайплайнов;
- Имеете опыт работы с Airflow/Dagster или другим решением подобного класса;
- Имеете опыт выбора, развертывания и поддержки аналитических инструментов.