Files
netology-devops/src/homework/10-monitoring/10.6
2022-10-19 12:53:44 +07:00
..
2022-10-19 12:53:44 +07:00

Выполнение домашнего задания по теме "10.6. Инцидент-менеджмент"

Q/A

Задание 1

Составьте постмотрем, на основе реального сбоя системы Github в 2018 году.

Информация о сбое доступна в виде краткой выжимки на русском языке , а также развёрнуто на английском языке.

Краткое описание инцидента Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com
Причина инцидента Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования
Воздействие Деградация сервиса в течение 24 часов и 11 минут
Обнаружение Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github
Реакция В течение 15 минут после обнаружения проблемы:
  • Остановка внутренней системы деплоя
  • Привлечение координатора инцидентов
  • Установка статуса `red` для системы
Восстановление Восстановление бэкапов баз данных кластера (в том числе реплик)
Таймлайн
  • 2018-10-21 22:52 UTC Начало деградации кластера БД
  • 2018-10-21 22:54 UTC Алёрт внутренней системы мониторинга
  • 2018-10-21 23:02 UTC Подтверждение проблемы инженерами
  • 2018-10-21 23:07 UTC Блокировка внутренней системы деплоя
  • 2018-10-21 23:09 UTC Изменение статуса сервиса на yellow
  • 2018-10-21 23:11 UTC Привлечение координатора инцидентов, изменение статуса сервиса на red
  • 2018-10-21 23:13 UTC Обнаружение конкретной проблемы с кластерами БД
  • 2018-10-21 23:19 UTC Частичная контролируемая деградация сервисов записи данных в БД
  • 2018-10-22 00:05 UTC Разработка плана по восстановлению данных из бэкапов
  • 2018-10-22 00:41 UTC Начало процесса восстановления данных из бэкапов
  • 2018-10-22 06:51 UTC Начало второго этапа восстановления данных из бэкапов
  • 2018-10-22 07:46 UTC Подробное оповещение пользователей о проблеме
  • 2018-10-22 11:12 UTC Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.
  • 2018-10-22 13:15 UTC Попытки в ручном режиме ускорить процесс репликации данных
  • 2018-10-22 16:24 UTC Завершение процесса репликации данных.
  • 2018-10-22 16:45 UTC Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.
  • 2018-10-22 23:03 UTC Восстановление работы сервиса в штатном режиме.
Последующие действия
  • Устранение несоответствий в данных
  • Улучшение качества коммуникаций с пользователями
  • Выполнение множества технических инициатив
  • Развитие направлений "fault injection" и "chaos engineering"