mirror of
https://github.com/Dannecron/netology-devops.git
synced 2025-12-25 23:32:37 +03:00
homework 10.6: complete all tasks
This commit is contained in:
84
src/homework/10-monitoring/10.6/readme.md
Normal file
84
src/homework/10-monitoring/10.6/readme.md
Normal file
@@ -0,0 +1,84 @@
|
||||
Выполнение [домашнего задания](https://github.com/netology-code/mnt-homeworks/blob/MNT-13/10-monitoring-05-sentry/README.md)
|
||||
по теме "10.6. Инцидент-менеджмент"
|
||||
|
||||
## Q/A
|
||||
|
||||
### Задание 1
|
||||
|
||||
|
||||
> Составьте постмотрем, на основе реального сбоя системы Github в 2018 году.
|
||||
>
|
||||
> Информация о сбое доступна [в виде краткой выжимки на русском языке](https://habr.com/ru/post/427301/) , а
|
||||
> также [развёрнуто на английском языке](https://github.blog/2018-10-30-oct21-post-incident-analysis/).
|
||||
|
||||
<table>
|
||||
<tbody>
|
||||
<tr>
|
||||
<td>Краткое описание инцидента</td>
|
||||
<td>Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Причина инцидента</td>
|
||||
<td>Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Воздействие</td>
|
||||
<td>Деградация сервиса в течение 24 часов и 11 минут</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Обнаружение</td>
|
||||
<td>Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Реакция</td>
|
||||
<td>
|
||||
В течение 15 минут после обнаружения проблемы:
|
||||
<ul>
|
||||
<li>Остановка внутренней системы деплоя</li>
|
||||
<li>Привлечение координатора инцидентов</li>
|
||||
<li>Установка статуса `red` для системы</li>
|
||||
</ul>
|
||||
</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Восстановление</td>
|
||||
<td>Восстановление бэкапов баз данных кластера (в том числе реплик)</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Таймлайн</td>
|
||||
<td>
|
||||
<ul>
|
||||
<li><b>2018-10-21 22:52 UTC</b> Начало деградации кластера БД</li>
|
||||
<li><b>2018-10-21 22:54 UTC</b> Алёрт внутренней системы мониторинга</li>
|
||||
<li><b>2018-10-21 23:02 UTC</b> Подтверждение проблемы инженерами</li>
|
||||
<li><b>2018-10-21 23:07 UTC</b> Блокировка внутренней системы деплоя</li>
|
||||
<li><b>2018-10-21 23:09 UTC</b> Изменение статуса сервиса на yellow</li>
|
||||
<li><b>2018-10-21 23:11 UTC</b> Привлечение координатора инцидентов, изменение статуса сервиса на red</li>
|
||||
<li><b>2018-10-21 23:13 UTC</b> Обнаружение конкретной проблемы с кластерами БД</li>
|
||||
<li><b>2018-10-21 23:19 UTC</b> Частичная контролируемая деградация сервисов записи данных в БД</li>
|
||||
<li><b>2018-10-22 00:05 UTC</b> Разработка плана по восстановлению данных из бэкапов</li>
|
||||
<li><b>2018-10-22 00:41 UTC</b> Начало процесса восстановления данных из бэкапов</li>
|
||||
<li><b>2018-10-22 06:51 UTC</b> Начало второго этапа восстановления данных из бэкапов</li>
|
||||
<li><b>2018-10-22 07:46 UTC</b> Подробное оповещение пользователей о проблеме</li>
|
||||
<li><b>2018-10-22 11:12 UTC</b> Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.</li>
|
||||
<li><b>2018-10-22 13:15 UTC</b> Попытки в ручном режиме ускорить процесс репликации данных</li>
|
||||
<li><b>2018-10-22 16:24 UTC</b> Завершение процесса репликации данных.</li>
|
||||
<li><b>2018-10-22 16:45 UTC</b> Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.</li>
|
||||
<li><b>2018-10-22 23:03 UTC</b> Восстановление работы сервиса в штатном режиме.</li>
|
||||
//todo
|
||||
</ul>
|
||||
</td>
|
||||
</tr>
|
||||
<tr>
|
||||
<td>Последующие действия</td>
|
||||
<td>
|
||||
<ul>
|
||||
<li>Устранение несоответствий в данных</li>
|
||||
<li>Улучшение качества коммуникаций с пользователями</li>
|
||||
<li>Выполнение множества технических инициатив</li>
|
||||
<li>Развитие направлений "fault injection" и "chaos engineering"</li>
|
||||
</ul>
|
||||
</td>
|
||||
</tr>
|
||||
</tbody>
|
||||
</table>
|
||||
Reference in New Issue
Block a user