From 8df78117052e384fd5940504bf3f48e8393c5d6f Mon Sep 17 00:00:00 2001
From: dannc <dannc.sao@gmail.com>
Date: Wed, 19 Oct 2022 12:51:32 +0700
Subject: [PATCH] homework 10.6: complete all tasks

---
 readme.md                                 |  1 +
 src/homework/10-monitoring/10.6/readme.md | 84 +++++++++++++++++++++++
 2 files changed, 85 insertions(+)
 create mode 100644 src/homework/10-monitoring/10.6/readme.md
diff --git a/readme.md b/readme.md
index b144df2..f516d1d 100644
--- a/readme.md
+++ b/readme.md
@@ -52,3 +52,4 @@
 * [10.3. Grafana](/src/homework/10-monitoring/10.3)
 * [10.4. ELK](/src/homework/10-monitoring/10.4)
 * [10.5. Sentry](/src/homework/10-monitoring/10.5)
+* [10.6. Инцидент-менеджмент](/src/homework/10-monitoring/10.6)
diff --git a/src/homework/10-monitoring/10.6/readme.md b/src/homework/10-monitoring/10.6/readme.md
new file mode 100644
index 0000000..c30f245
--- /dev/null
+++ b/src/homework/10-monitoring/10.6/readme.md
@@ -0,0 +1,84 @@
+Выполнение [домашнего задания](https://github.com/netology-code/mnt-homeworks/blob/MNT-13/10-monitoring-05-sentry/README.md)
+по теме "10.6. Инцидент-менеджмент"
+
+## Q/A
+
+### Задание 1
+
+
+> Составьте постмотрем, на основе реального сбоя системы Github в 2018 году.
+> 
+> Информация о сбое доступна [в виде краткой выжимки на русском языке](https://habr.com/ru/post/427301/) , а
+> также [развёрнуто на английском языке](https://github.blog/2018-10-30-oct21-post-incident-analysis/).
+
+<table>
+    <tbody>
+        <tr>
+            <td>Краткое описание инцидента</td>
+            <td>Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com</td>
+        </tr>
+        <tr>
+            <td>Причина инцидента</td>
+            <td>Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования</td>
+        </tr>
+        <tr>
+            <td>Воздействие</td>
+            <td>Деградация сервиса в течение 24 часов и 11 минут</td>
+        </tr>
+        <tr>
+            <td>Обнаружение</td>
+            <td>Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github</td>
+        </tr>
+        <tr>
+            <td>Реакция</td>
+            <td>
+                В течение 15 минут после обнаружения проблемы: 
+                <ul>
+                    <li>Остановка внутренней системы деплоя</li>
+                    <li>Привлечение координатора инцидентов</li>
+                    <li>Установка статуса `red` для системы</li>
+                </ul>
+            </td>
+        </tr>
+        <tr>
+            <td>Восстановление</td>
+            <td>Восстановление бэкапов баз данных кластера (в том числе реплик)</td>
+        </tr>
+        <tr>
+            <td>Таймлайн</td>
+            <td>
+                <ul>
+                    <li><b>2018-10-21 22:52 UTC</b> Начало деградации кластера БД</li>
+                    <li><b>2018-10-21 22:54 UTC</b> Алёрт внутренней системы мониторинга</li>
+                    <li><b>2018-10-21 23:02 UTC</b> Подтверждение проблемы инженерами</li>
+                    <li><b>2018-10-21 23:07 UTC</b> Блокировка внутренней системы деплоя</li>
+                    <li><b>2018-10-21 23:09 UTC</b> Изменение статуса сервиса на yellow</li>
+                    <li><b>2018-10-21 23:11 UTC</b> Привлечение координатора инцидентов, изменение статуса сервиса на red</li>
+                    <li><b>2018-10-21 23:13 UTC</b> Обнаружение конкретной проблемы с кластерами БД</li>
+                    <li><b>2018-10-21 23:19 UTC</b> Частичная контролируемая деградация сервисов записи данных в БД</li>
+                    <li><b>2018-10-22 00:05 UTC</b> Разработка плана по восстановлению данных из бэкапов</li>
+                    <li><b>2018-10-22 00:41 UTC</b> Начало процесса восстановления данных из бэкапов</li>
+                    <li><b>2018-10-22 06:51 UTC</b> Начало второго этапа восстановления данных из бэкапов</li>
+                    <li><b>2018-10-22 07:46 UTC</b> Подробное оповещение пользователей о проблеме</li>
+                    <li><b>2018-10-22 11:12 UTC</b> Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.</li>
+                    <li><b>2018-10-22 13:15 UTC</b> Попытки в ручном режиме ускорить процесс репликации данных</li>
+                    <li><b>2018-10-22 16:24 UTC</b> Завершение процесса репликации данных.</li>
+                    <li><b>2018-10-22 16:45 UTC</b> Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.</li>
+                    <li><b>2018-10-22 23:03 UTC</b> Восстановление работы сервиса в штатном режиме.</li>
+                    //todo
+                </ul>
+            </td>
+        </tr>
+        <tr>
+            <td>Последующие действия</td>
+            <td>
+                <ul>
+                    <li>Устранение несоответствий в данных</li>
+                    <li>Улучшение качества коммуникаций с пользователями</li>
+                    <li>Выполнение множества технических инициатив</li>
+                    <li>Развитие направлений "fault injection" и "chaos engineering"</li>
+                </ul>
+            </td>
+        </tr>
+    </tbody>
+</table>

Краткое описание инцидента	Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com
Причина инцидента	Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования
Воздействие	Деградация сервиса в течение 24 часов и 11 минут
Обнаружение	Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github
Реакция	+ В течение 15 минут после обнаружения проблемы: + + Остановка внутренней системы деплоя + Привлечение координатора инцидентов + Установка статуса `red` для системы + +
Восстановление	Восстановление бэкапов баз данных кластера (в том числе реплик)
Таймлайн	+ + 2018-10-21 22:52 UTC Начало деградации кластера БД + 2018-10-21 22:54 UTC Алёрт внутренней системы мониторинга + 2018-10-21 23:02 UTC Подтверждение проблемы инженерами + 2018-10-21 23:07 UTC Блокировка внутренней системы деплоя + 2018-10-21 23:09 UTC Изменение статуса сервиса на yellow + 2018-10-21 23:11 UTC Привлечение координатора инцидентов, изменение статуса сервиса на red + 2018-10-21 23:13 UTC Обнаружение конкретной проблемы с кластерами БД + 2018-10-21 23:19 UTC Частичная контролируемая деградация сервисов записи данных в БД + 2018-10-22 00:05 UTC Разработка плана по восстановлению данных из бэкапов + 2018-10-22 00:41 UTC Начало процесса восстановления данных из бэкапов + 2018-10-22 06:51 UTC Начало второго этапа восстановления данных из бэкапов + 2018-10-22 07:46 UTC Подробное оповещение пользователей о проблеме + 2018-10-22 11:12 UTC Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами. + 2018-10-22 13:15 UTC Попытки в ручном режиме ускорить процесс репликации данных + 2018-10-22 16:24 UTC Завершение процесса репликации данных. + 2018-10-22 16:45 UTC Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач. + 2018-10-22 23:03 UTC Восстановление работы сервиса в штатном режиме. + //todo + +
Последующие действия	+ + Устранение несоответствий в данных + Улучшение качества коммуникаций с пользователями + Выполнение множества технических инициатив + Развитие направлений "fault injection" и "chaos engineering" + +