Старший инженер мониторинга

В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы manifesto.avito.com

О команде

Авито — это тысячи микросервисов и серверов, сложная техническая архитектура и востребованные продукты для пользователей. Работу всей системы обеспечивают метрики, алерты, логи и дашборды. Команда Incident & Problem Management помогает компании повышать стабильность площадки, координирует работу множества отделов при сбоях, а также разрабатывает решения, которые снижают вероятность появления инцидентов и упрощают процесс устранения проблем.

Мы ищем старшего инженера, который будет вести проектные стримы по улучшению систем мониторинга и качества сервисов, выступать наставником для сменных специалистов 24/7 и контролировать соблюдение SLA/SLO.

Вам предстоит:

  • вести проектные стримы по развитию мониторинга - от идеи до измеримого результата в метриках;
  • повышать качество алертов: внедрять новые, устранять шум, разбирать цепочки на крупных инцидентах;
  • держать SLA/SLO команды под контролем и подсвечивать отклонения раньше, чем они становятся проблемой;
  • развивать инструменты и документацию мониторинга, чтобы команде работалось быстрее и точнее;
  • участвовать в жизни команды: онбордить новичков, проводить технические интервью, вести встречи в отсутствие тимлида.

Мы ждём, что вы:

  • работали в мониторинге, SRE или DevOps от 2 лет, включая опыт сменного графика 24/7;
  • уверенно знаете Linux: понимаете системные метрики, сеть, процессы, ресурсы CPU/RAM/disk, умеете разбирать production-проблемы на уровне хоста и приложения;
  • разбираетесь в системах мониторинга: Zabbix, Prometheus, Grafana, ELK, в том числе пишете и оптимизируете запросы в Graphite и Prometheus;
  • понимаете, как функционируют микросервисы в продакшене, и используете Git как базовый инструмент;
  • умеете вести стрим: декомпозировать задачи, отвечать за метрики и доводить до результата.

Будет здорово, если вы:

  • работали на позиции сеньора или лида, а также занимались наставничеством или адаптацией инженеров;
  • снижали уровень alert noise, false positive алертов и улучшали качества мониторинга;
  • участвовали в postmortem/RCA и улучшении процессов после инцидентов;
  • умеете автоматизировать рутину на Python, Go, Bash или другом языке;
  • имеете опыт работы с Kubernetes, контейнерами, Service Discovery и Tracing;
  • строили дашборды и метрики для оценки качества реагирования на инциденты: MTTA, MTTD, FRT, SLA/SLO.

Работа у нас — это:

  • возможность реализовать свои идеи в проекте с многомиллионной аудиторией;
  • талантливая команда, готовая поддержать ваши инициативы;
  • мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;
  • прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
  • личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
  • забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист.

Похожие вакансии

Сейчас похожих вакансий нет, но новые предложения обязательно появятся
Москва, ул. Лесная, 7
Поделиться
Скопировать ссылку Вконтакте Telegram WhatsApp