Старший инженер мониторинга

Команда Техническая платформа

Локация Москва, гибрид или удалёнка

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

Откликнуться

О команде

Авито — это тысячи микросервисов и серверов, сложная техническая архитектура и востребованные продукты для пользователей. Работу всей системы обеспечивают метрики, алерты, логи и дашборды. Команда Incident & Problem Management помогает компании повышать стабильность площадки, координирует работу множества отделов при сбоях, а также разрабатывает решения, которые снижают вероятность появления инцидентов и упрощают процесс устранения проблем.

Мы ищем старшего инженера, который будет вести проектные стримы по улучшению систем мониторинга и качества сервисов, выступать наставником для сменных специалистов 24/7 и контролировать соблюдение SLA/SLO.

Вам предстоит:

вести проектные стримы по развитию мониторинга - от идеи до измеримого результата в метриках;
повышать качество алертов: внедрять новые, устранять шум, разбирать цепочки на крупных инцидентах;
держать SLA/SLO команды под контролем и подсвечивать отклонения раньше, чем они становятся проблемой;
развивать инструменты и документацию мониторинга, чтобы команде работалось быстрее и точнее;
участвовать в жизни команды: онбордить новичков, проводить технические интервью, вести встречи в отсутствие тимлида.

Мы ждём, что вы:

работали в мониторинге, SRE или DevOps от 2 лет, включая опыт сменного графика 24/7;
уверенно знаете Linux: понимаете системные метрики, сеть, процессы, ресурсы CPU/RAM/disk, умеете разбирать production-проблемы на уровне хоста и приложения;
разбираетесь в системах мониторинга: Zabbix, Prometheus, Grafana, ELK, в том числе пишете и оптимизируете запросы в Graphite и Prometheus;
понимаете, как функционируют микросервисы в продакшене, и используете Git как базовый инструмент;
умеете вести стрим: декомпозировать задачи, отвечать за метрики и доводить до результата.

Будет здорово, если вы:

работали на позиции сеньора или лида, а также занимались наставничеством или адаптацией инженеров;
снижали уровень alert noise, false positive алертов и улучшали качества мониторинга;
участвовали в postmortem/RCA и улучшении процессов после инцидентов;
умеете автоматизировать рутину на Python, Go, Bash или другом языке;
имеете опыт работы с Kubernetes, контейнерами, Service Discovery и Tracing;
строили дашборды и метрики для оценки качества реагирования на инциденты: MTTA, MTTD, FRT, SLA/SLO.

Работа у нас — это:

возможность реализовать свои идеи в проекте с многомиллионной аудиторией;
талантливая команда, готовая поддержать ваши инициативы;
мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;
прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист.

Про команду