Data Engineer в команду Datamart

Локация Москва, можно удаленно

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Наша команда инженеров помогает аналитикам выполнять свои задачи быстро и качественно, используя принятые в компании решения, инструменты и стандарты. Мы фокусируемся на выявлении текущих проблем и потребностей аналитиков, чтобы предложить им эффективные решения, упрощающие их повседневные задачи.

Описание IT-решения:

основной стек: Python, Vertica, Trino и CEPH;

мы пишем новые сервисы на внутренней платформе Авито;

более 2500 дата-пайплайнов, около 200 аналитиков в месяц, 30 изменений в день;

legacy: много, но в разумных масштабах, новые компоненты пишем на общей платформе.

Примеры будущих задач:

Разрабатывать тесты для SQL-кода обработки данных:

Автоматические проверки синтаксиса, перфоманса и бизнес-правил с учётом специфики движков:

пример: запрет на внесение циклов по зависимостям при публикации расчёта;
пример: анализ метрик mem/cpu при тестовом прогоне и сравнение с порогами и предыдущими расчётами.

Создание гайдлайнов по оптимизации SQL-запросов и модели данных и их оптимизация:

пример: тестирование неоптимальных операций по паттернам в запросе и explain-плане.

Автоматические проверки по мотивам postmortem для обеспечения стабильности.

Развивать пользовательский опыт использования self-service инструментов:

написание тестов с понятными критериями прохождения;

создание автоматических рекомендаций к исправлению ошибок и оптимизации перфоманса.

Принимать участие в работе с аналитиками по опыту использования инструментов:

помощь с неавтоматизированной частью, ответы на вопросы, поддержка.

Вам предстоит:

Разработать инструменты для self-service встраивания и поддержки пайплайнов обработки данных аналитиками;

Уменьшить время на создание дата-пайплайнов от идеи до данных в проде;

Обеспечить создание масштабируемого хранилища, выполнение заданий при разделении хранения данных и вычислений над ними;

Интегрировать системы тестирования и деплоймента в jupyter-like IDE.

Мы ждём, что вы:

Имеете опыт работы с ClickHouse/Vertica/Trino/Greenplum;

Умеете программировать на Python;

Понимаете, как работают Git/Bitbucket/TeamCity;

Отлично знаете SQL в OLAP-специфике;

Любите разбираться в том, как работают аналитические системы;

Умеете находить ответы на вопросы с помощью метрик и аналитики.

Будет здорово, если вы:

Имеете опыт автоматизации, упрощения рутинных задач создания дата-пайплайнов;

Имеете опыт работы с Airflow/Dagster или другим решением подобного класса;

Имеете опыт выбора, развертывания и поддержки аналитических инструментов.

373 вакансии открыто

Смотреть вакансии Вакансии в Telegram

Офис в Москве ул. Лесная, 7 ул. Лесная, 7

Офис в Петербурге Малоохтинский пр-кт, 64, лит B Малоохтинский пр-кт, 64, лит B

Офис в Казани ул. Московская, зд. 19/8 ул. Московская, зд. 19/8

Офис в Самаре ул. Ново-Садовая, д. 160Д стр 2 ул. Ново-Садовая, д. 160Д стр 2

Согласно данным Similar Web, Авито — самая посещаемая онлайн-платформа объявлений в мире. Сегодня с помощью Авито можно разместить объявления в категориях: Товары, Авто, Работа, Услуги, Недвижимость. Для удобного и безопасного заключения сделок в сервис интегрирована Авито Доставка с десятками тысяч доступных пунктов выдачи, которая позволяет пользователям осуществлять сделки практически по всей России — от Калининграда до Владивостока. Каждая пятая сделка на Авито совершается с Доставкой. Авито объединяет продавцов и покупателей, как со стороны частных лиц, так и представителей малого и среднего бизнеса, а также корпораций.

Количество активных объявлений на Авито сегодня — более 230 млн, ежемесячная аудитория — более 72 млн пользователей. Каждую секунду на Авито совершается более 10 сделок, ежедневно пользователи добавляют более 2 млн новых объявлений. В Авито работает более 10 000 сотрудников.

Разработано