homework 10.6: complete all tasks

2025-12-25 23:32:37 +03:00 · 2022-10-19 12:51:32 +07:00
parent 5fcacd72fe
commit 8df7811705
2 changed files with 85 additions and 0 deletions
--- a/readme.md
+++ b/readme.md
@@ -52,3 +52,4 @@
 * [10.3. Grafana](/src/homework/10-monitoring/10.3)
 * [10.4. ELK](/src/homework/10-monitoring/10.4)
 * [10.5. Sentry](/src/homework/10-monitoring/10.5)
 * [10.6. Инцидент-менеджмент](/src/homework/10-monitoring/10.6)
--- a/src/homework/10-monitoring/10.6/readme.md
+++ b/src/homework/10-monitoring/10.6/readme.md
@@ -0,0 +1,84 @@
 Выполнение [домашнего задания](https://github.com/netology-code/mnt-homeworks/blob/MNT-13/10-monitoring-05-sentry/README.md)
 по теме "10.6. Инцидент-менеджмент"
 ## Q/A
 ### Задание 1
 > Составьте постмотрем, на основе реального сбоя системы Github в 2018 году.
 > 
 > Информация о сбое доступна [в виде краткой выжимки на русском языке](https://habr.com/ru/post/427301/) , а
 > также [развёрнуто на английском языке](https://github.blog/2018-10-30-oct21-post-incident-analysis/).
 <table>
    <tbody>
        <tr>
            <td>Краткое описание инцидента</td>
            <td>Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com</td>
        </tr>
        <tr>
            <td>Причина инцидента</td>
            <td>Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования</td>
        </tr>
        <tr>
            <td>Воздействие</td>
            <td>Деградация сервиса в течение 24 часов и 11 минут</td>
        </tr>
        <tr>
            <td>Обнаружение</td>
            <td>Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github</td>
        </tr>
        <tr>
            <td>Реакция</td>
            <td>
                В течение 15 минут после обнаружения проблемы: 
                <ul>
                    <li>Остановка внутренней системы деплоя</li>
                    <li>Привлечение координатора инцидентов</li>
                    <li>Установка статуса `red` для системы</li>
                </ul>
            </td>
        </tr>
        <tr>
            <td>Восстановление</td>
            <td>Восстановление бэкапов баз данных кластера (в том числе реплик)</td>
        </tr>
        <tr>
            <td>Таймлайн</td>
            <td>
                <ul>
                    <li><b>2018-10-21 22:52 UTC</b> Начало деградации кластера БД</li>
                    <li><b>2018-10-21 22:54 UTC</b> Алёрт внутренней системы мониторинга</li>
                    <li><b>2018-10-21 23:02 UTC</b> Подтверждение проблемы инженерами</li>
                    <li><b>2018-10-21 23:07 UTC</b> Блокировка внутренней системы деплоя</li>
                    <li><b>2018-10-21 23:09 UTC</b> Изменение статуса сервиса на yellow</li>
                    <li><b>2018-10-21 23:11 UTC</b> Привлечение координатора инцидентов, изменение статуса сервиса на red</li>
                    <li><b>2018-10-21 23:13 UTC</b> Обнаружение конкретной проблемы с кластерами БД</li>
                    <li><b>2018-10-21 23:19 UTC</b> Частичная контролируемая деградация сервисов записи данных в БД</li>
                    <li><b>2018-10-22 00:05 UTC</b> Разработка плана по восстановлению данных из бэкапов</li>
                    <li><b>2018-10-22 00:41 UTC</b> Начало процесса восстановления данных из бэкапов</li>
                    <li><b>2018-10-22 06:51 UTC</b> Начало второго этапа восстановления данных из бэкапов</li>
                    <li><b>2018-10-22 07:46 UTC</b> Подробное оповещение пользователей о проблеме</li>
                    <li><b>2018-10-22 11:12 UTC</b> Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.</li>
                    <li><b>2018-10-22 13:15 UTC</b> Попытки в ручном режиме ускорить процесс репликации данных</li>
                    <li><b>2018-10-22 16:24 UTC</b> Завершение процесса репликации данных.</li>
                    <li><b>2018-10-22 16:45 UTC</b> Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.</li>
                    <li><b>2018-10-22 23:03 UTC</b> Восстановление работы сервиса в штатном режиме.</li>
                    //todo
                </ul>
            </td>
        </tr>
        <tr>
            <td>Последующие действия</td>
            <td>
                <ul>
                    <li>Устранение несоответствий в данных</li>
                    <li>Улучшение качества коммуникаций с пользователями</li>
                    <li>Выполнение множества технических инициатив</li>
                    <li>Развитие направлений "fault injection" и "chaos engineering"</li>
                </ul>
            </td>
        </tr>
    </tbody>
 </table>