Инцидент-координатор
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com
О команде
Авито — это более 4000 микросервисов и тысячи релизов в день. Даже в самой стабильной системе могут происходить сбои, и наша задача — минимизировать их влияние на бизнес и пользователей. Мы не просто устраняем инциденты, а создаём процессы, которые делают платформу надёжнее.
Перед командой стоит стратегическая задача построить процесс инцидент менеджмента внутри нового направления. Необходимо будет разрабатывать регламенты на основе уже существующих внутри компании, выбирать инструменты, обучать команды.
Вам предстоит:
- управлять крупными и сложными инцидентами: быстро формулировать гипотезы, проверять их и координировать команды для устранения проблемы, выстраивать коммуникации с бизнесом;
- развивать практики надёжности на уровне всей компании: проектировать учения для сотен дежурных, повышая их готовность к инцидентам;
- выявлять слабые места в критических сервисах и предотвращать инциденты до их возникновения;
- участвовать в создании инструментов для мониторинга и диагностики, формулировать задачи для разработки или реализовывать их самостоятельно;
- построить процесс инцидент-менеджмента с нуля: разрабатывать и внедрять регламенты и процедуры на основе лучших практик компании, адаптируя их под специфику нового направления;
- обучать команды: проводить учения и обучать инженеров нового направления практикам: от первого реагирования до постмортема, повышая их готовность к любым нештатным ситуациям.
Мы ждём, что вы:
- имеете опыт работы от 3 лет на позиции DevOps / SRE / Инженер технической поддержки;
- понимаете принципы работы микросервисной архитектуры;
- понимаете принципы Kubernetes;
- имеете опыт диагностики проблем с базами данных;
- способны оперативно принимать взвешенные решения в условиях ограниченного времени и неполной информации;
- имеете опыт управления инцидентами;
- имеете опыт работы с системами мониторинга и визуализации (Prometheus, Grafana).
Работа у нас — это:
- возможность реализовать свои идеи в проекте с многомиллионной аудиторией;
- возможность увидеть, потрогать, пощупать весь технологический стек (тысячи серверов и микросервисов) Авито с первого дня работы;
- работа в гибридном формате, основная часть команды в Москве, но готовы обсудить полностью удаленный формат;
- комфортные условия работы: ДМС, фитнес, компенсация питания;
- возможность проходить обучение за счет компании, участие во внутренних митапах, хакатонах, тренингах.