diff --git a/readme.md b/readme.md index b144df2..f516d1d 100644 --- a/readme.md +++ b/readme.md @@ -52,3 +52,4 @@ * [10.3. Grafana](/src/homework/10-monitoring/10.3) * [10.4. ELK](/src/homework/10-monitoring/10.4) * [10.5. Sentry](/src/homework/10-monitoring/10.5) +* [10.6. Инцидент-менеджмент](/src/homework/10-monitoring/10.6) diff --git a/src/homework/10-monitoring/10.6/readme.md b/src/homework/10-monitoring/10.6/readme.md new file mode 100644 index 0000000..c30f245 --- /dev/null +++ b/src/homework/10-monitoring/10.6/readme.md @@ -0,0 +1,84 @@ +Выполнение [домашнего задания](https://github.com/netology-code/mnt-homeworks/blob/MNT-13/10-monitoring-05-sentry/README.md) +по теме "10.6. Инцидент-менеджмент" + +## Q/A + +### Задание 1 + + +> Составьте постмотрем, на основе реального сбоя системы Github в 2018 году. +> +> Информация о сбое доступна [в виде краткой выжимки на русском языке](https://habr.com/ru/post/427301/) , а +> также [развёрнуто на английском языке](https://github.blog/2018-10-30-oct21-post-incident-analysis/). + +
| Краткое описание инцидента | +Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com | +
| Причина инцидента | +Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования | +
| Воздействие | +Деградация сервиса в течение 24 часов и 11 минут | +
| Обнаружение | +Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github | +
| Реакция | +
+ В течение 15 минут после обнаружения проблемы:
+
|
+
| Восстановление | +Восстановление бэкапов баз данных кластера (в том числе реплик) | +
| Таймлайн | +
+
|
+
| Последующие действия | +
+
|
+