netology-devops

dannc/netology-devops

Fork 0

mirror of https://github.com/Dannecron/netology-devops.git synced 2025-12-25 15:22:37 +03:00

Files

History

dannc 3eccbe572e homework 10.6: fix link

2022-10-19 12:53:44 +07:00

readme.md

homework 10.6: fix link

2022-10-19 12:53:44 +07:00

readme.md

Выполнение домашнего задания по теме "10.6. Инцидент-менеджмент"

Q/A

Задание 1

Составьте постмотрем, на основе реального сбоя системы Github в 2018 году.

Информация о сбое доступна в виде краткой выжимки на русском языке , а также развёрнуто на английском языке.

Краткое описание инцидента	Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com
Причина инцидента	Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования
Воздействие	Деградация сервиса в течение 24 часов и 11 минут
Обнаружение	Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github
Реакция	В течение 15 минут после обнаружения проблемы: Остановка внутренней системы деплоя Привлечение координатора инцидентов Установка статуса `red` для системы
Восстановление	Восстановление бэкапов баз данных кластера (в том числе реплик)
Таймлайн	2018-10-21 22:52 UTC Начало деградации кластера БД 2018-10-21 22:54 UTC Алёрт внутренней системы мониторинга 2018-10-21 23:02 UTC Подтверждение проблемы инженерами 2018-10-21 23:07 UTC Блокировка внутренней системы деплоя 2018-10-21 23:09 UTC Изменение статуса сервиса на yellow 2018-10-21 23:11 UTC Привлечение координатора инцидентов, изменение статуса сервиса на red 2018-10-21 23:13 UTC Обнаружение конкретной проблемы с кластерами БД 2018-10-21 23:19 UTC Частичная контролируемая деградация сервисов записи данных в БД 2018-10-22 00:05 UTC Разработка плана по восстановлению данных из бэкапов 2018-10-22 00:41 UTC Начало процесса восстановления данных из бэкапов 2018-10-22 06:51 UTC Начало второго этапа восстановления данных из бэкапов 2018-10-22 07:46 UTC Подробное оповещение пользователей о проблеме 2018-10-22 11:12 UTC Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами. 2018-10-22 13:15 UTC Попытки в ручном режиме ускорить процесс репликации данных 2018-10-22 16:24 UTC Завершение процесса репликации данных. 2018-10-22 16:45 UTC Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач. 2018-10-22 23:03 UTC Восстановление работы сервиса в штатном режиме.
Последующие действия	Устранение несоответствий в данных Улучшение качества коммуникаций с пользователями Выполнение множества технических инициатив Развитие направлений "fault injection" и "chaos engineering"

readme.md Unescape Escape

Q/A

Задание 1

readme.md