From 8df78117052e384fd5940504bf3f48e8393c5d6f Mon Sep 17 00:00:00 2001 From: dannc Date: Wed, 19 Oct 2022 12:51:32 +0700 Subject: [PATCH] homework 10.6: complete all tasks --- readme.md | 1 + src/homework/10-monitoring/10.6/readme.md | 84 +++++++++++++++++++++++ 2 files changed, 85 insertions(+) create mode 100644 src/homework/10-monitoring/10.6/readme.md diff --git a/readme.md b/readme.md index b144df2..f516d1d 100644 --- a/readme.md +++ b/readme.md @@ -52,3 +52,4 @@ * [10.3. Grafana](/src/homework/10-monitoring/10.3) * [10.4. ELK](/src/homework/10-monitoring/10.4) * [10.5. Sentry](/src/homework/10-monitoring/10.5) +* [10.6. Инцидент-менеджмент](/src/homework/10-monitoring/10.6) diff --git a/src/homework/10-monitoring/10.6/readme.md b/src/homework/10-monitoring/10.6/readme.md new file mode 100644 index 0000000..c30f245 --- /dev/null +++ b/src/homework/10-monitoring/10.6/readme.md @@ -0,0 +1,84 @@ +Выполнение [домашнего задания](https://github.com/netology-code/mnt-homeworks/blob/MNT-13/10-monitoring-05-sentry/README.md) +по теме "10.6. Инцидент-менеджмент" + +## Q/A + +### Задание 1 + + +> Составьте постмотрем, на основе реального сбоя системы Github в 2018 году. +> +> Информация о сбое доступна [в виде краткой выжимки на русском языке](https://habr.com/ru/post/427301/) , а +> также [развёрнуто на английском языке](https://github.blog/2018-10-30-oct21-post-incident-analysis/). + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Краткое описание инцидентаСбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com
Причина инцидентаПлановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования
ВоздействиеДеградация сервиса в течение 24 часов и 11 минут
ОбнаружениеГенерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github
Реакция + В течение 15 минут после обнаружения проблемы: +
    +
  • Остановка внутренней системы деплоя
  • +
  • Привлечение координатора инцидентов
  • +
  • Установка статуса `red` для системы
  • +
+
ВосстановлениеВосстановление бэкапов баз данных кластера (в том числе реплик)
Таймлайн +
    +
  • 2018-10-21 22:52 UTC Начало деградации кластера БД
  • +
  • 2018-10-21 22:54 UTC Алёрт внутренней системы мониторинга
  • +
  • 2018-10-21 23:02 UTC Подтверждение проблемы инженерами
  • +
  • 2018-10-21 23:07 UTC Блокировка внутренней системы деплоя
  • +
  • 2018-10-21 23:09 UTC Изменение статуса сервиса на yellow
  • +
  • 2018-10-21 23:11 UTC Привлечение координатора инцидентов, изменение статуса сервиса на red
  • +
  • 2018-10-21 23:13 UTC Обнаружение конкретной проблемы с кластерами БД
  • +
  • 2018-10-21 23:19 UTC Частичная контролируемая деградация сервисов записи данных в БД
  • +
  • 2018-10-22 00:05 UTC Разработка плана по восстановлению данных из бэкапов
  • +
  • 2018-10-22 00:41 UTC Начало процесса восстановления данных из бэкапов
  • +
  • 2018-10-22 06:51 UTC Начало второго этапа восстановления данных из бэкапов
  • +
  • 2018-10-22 07:46 UTC Подробное оповещение пользователей о проблеме
  • +
  • 2018-10-22 11:12 UTC Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.
  • +
  • 2018-10-22 13:15 UTC Попытки в ручном режиме ускорить процесс репликации данных
  • +
  • 2018-10-22 16:24 UTC Завершение процесса репликации данных.
  • +
  • 2018-10-22 16:45 UTC Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.
  • +
  • 2018-10-22 23:03 UTC Восстановление работы сервиса в штатном режиме.
  • + //todo +
+
Последующие действия +
    +
  • Устранение несоответствий в данных
  • +
  • Улучшение качества коммуникаций с пользователями
  • +
  • Выполнение множества технических инициатив
  • +
  • Развитие направлений "fault injection" и "chaos engineering"
  • +
+