Data Engineer в команду Datamart
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы хотим построить инструмент, в котором аналитики могут самостоятельно, не прибегая помощи инженеров dwh, находить ответы в данных, проверять гипотезы и принимать бизнес-решения.
Наша цель — предоставлять платформу для решения задач, связанных с исследованиями, операционной отчетностью и продовыми интеграциями, обеспечивая изоляцию обработки и необходимый уровень доступности и качества данных.
Вам предстоит:
- отделить хранение данных от вычислений над ними: перейти от системы с единой OLAP СУБД к масштабируемому решению, разделив хранение данных и их обработку в изолированных контурах;
- повышать отказоустойчивость системы выполнения и снижать время готовности актуальных данных;
- развивать систему self-service, снижая время, необходимое на создание и изменение пайплайнов;
- развивать систему оркестрации задач, повышая надёжность, удовлетворяя новым запросам пользователей и целям отделения хранения;
- разрабатывать системы тестирования дата-пайплайнов по смыслу и перфомансу для Vertica, Trino и других движков;
- разрабатывать и дорабатывать системы оркестрации заданий;
- оптимизировать высоконагруженные дата-пайплайны и автоматизировать правила и рекомендации для их создателей.
Мы ждём, что вы:
- знаете и умеете писать на Python;
- проектировали или отвечали за компоненты различных систем;
- знаете и не боитесь применять SQL.
Будет здорово, если вы:
- работали с кластерными СУБД (Vertica, Snowflake, Clickhouse, StarRocks, Trino и др.);
- понимаете, что такое хранилище данных;
- разбираетесь в принципе оптимизации кода, работающего с большим объёмом данных;
- работали с инструментами интеграции данных (data bricks, dbt, ksql);
- работали с инструментами оркестрации (airflow, dagster, prefect);
- работали с инструментами CI/CD.
Работа у нас — это:
— интересные и важные задачи на очень большом проекте;
— передовые технологии и подходы, возможность пробовать новое;
— опытные и заинтересованные коллеги, готовые оказать поддержку;
— возможность приносить пользу миллионам пользователей, реализуя решения, основанные на данных;
— личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
— возможность работать удаленно и по желанию посещать комфортный офис в Москве или Санкт-Петербурге.