homework 10.6: complete all tasks

This commit is contained in:
2022-10-19 12:51:32 +07:00
parent 5fcacd72fe
commit 8df7811705
2 changed files with 85 additions and 0 deletions

View File

@@ -52,3 +52,4 @@
* [10.3. Grafana](/src/homework/10-monitoring/10.3) * [10.3. Grafana](/src/homework/10-monitoring/10.3)
* [10.4. ELK](/src/homework/10-monitoring/10.4) * [10.4. ELK](/src/homework/10-monitoring/10.4)
* [10.5. Sentry](/src/homework/10-monitoring/10.5) * [10.5. Sentry](/src/homework/10-monitoring/10.5)
* [10.6. Инцидент-менеджмент](/src/homework/10-monitoring/10.6)

View File

@@ -0,0 +1,84 @@
Выполнение [домашнего задания](https://github.com/netology-code/mnt-homeworks/blob/MNT-13/10-monitoring-05-sentry/README.md)
по теме "10.6. Инцидент-менеджмент"
## Q/A
### Задание 1
> Составьте постмотрем, на основе реального сбоя системы Github в 2018 году.
>
> Информация о сбое доступна [в виде краткой выжимки на русском языке](https://habr.com/ru/post/427301/) , а
> также [развёрнуто на английском языке](https://github.blog/2018-10-30-oct21-post-incident-analysis/).
<table>
<tbody>
<tr>
<td>Краткое описание инцидента</td>
<td>Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com</td>
</tr>
<tr>
<td>Причина инцидента</td>
<td>Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования</td>
</tr>
<tr>
<td>Воздействие</td>
<td>Деградация сервиса в течение 24 часов и 11 минут</td>
</tr>
<tr>
<td>Обнаружение</td>
<td>Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github</td>
</tr>
<tr>
<td>Реакция</td>
<td>
В течение 15 минут после обнаружения проблемы:
<ul>
<li>Остановка внутренней системы деплоя</li>
<li>Привлечение координатора инцидентов</li>
<li>Установка статуса `red` для системы</li>
</ul>
</td>
</tr>
<tr>
<td>Восстановление</td>
<td>Восстановление бэкапов баз данных кластера (в том числе реплик)</td>
</tr>
<tr>
<td>Таймлайн</td>
<td>
<ul>
<li><b>2018-10-21 22:52 UTC</b> Начало деградации кластера БД</li>
<li><b>2018-10-21 22:54 UTC</b> Алёрт внутренней системы мониторинга</li>
<li><b>2018-10-21 23:02 UTC</b> Подтверждение проблемы инженерами</li>
<li><b>2018-10-21 23:07 UTC</b> Блокировка внутренней системы деплоя</li>
<li><b>2018-10-21 23:09 UTC</b> Изменение статуса сервиса на yellow</li>
<li><b>2018-10-21 23:11 UTC</b> Привлечение координатора инцидентов, изменение статуса сервиса на red</li>
<li><b>2018-10-21 23:13 UTC</b> Обнаружение конкретной проблемы с кластерами БД</li>
<li><b>2018-10-21 23:19 UTC</b> Частичная контролируемая деградация сервисов записи данных в БД</li>
<li><b>2018-10-22 00:05 UTC</b> Разработка плана по восстановлению данных из бэкапов</li>
<li><b>2018-10-22 00:41 UTC</b> Начало процесса восстановления данных из бэкапов</li>
<li><b>2018-10-22 06:51 UTC</b> Начало второго этапа восстановления данных из бэкапов</li>
<li><b>2018-10-22 07:46 UTC</b> Подробное оповещение пользователей о проблеме</li>
<li><b>2018-10-22 11:12 UTC</b> Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.</li>
<li><b>2018-10-22 13:15 UTC</b> Попытки в ручном режиме ускорить процесс репликации данных</li>
<li><b>2018-10-22 16:24 UTC</b> Завершение процесса репликации данных.</li>
<li><b>2018-10-22 16:45 UTC</b> Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.</li>
<li><b>2018-10-22 23:03 UTC</b> Восстановление работы сервиса в штатном режиме.</li>
//todo
</ul>
</td>
</tr>
<tr>
<td>Последующие действия</td>
<td>
<ul>
<li>Устранение несоответствий в данных</li>
<li>Улучшение качества коммуникаций с пользователями</li>
<li>Выполнение множества технических инициатив</li>
<li>Развитие направлений "fault injection" и "chaos engineering"</li>
</ul>
</td>
</tr>
</tbody>
</table>