| Краткое описание инцидента |
Сбой сетевого раздела с последующим сбоем БД, что привело к появлению непоследовательной информации на сайте github.com |
| Причина инцидента |
Плановые работы по техническому обслуживанию для замены вышедшего из строя оптического оборудования |
| Воздействие |
Деградация сервиса в течение 24 часов и 11 минут |
| Обнаружение |
Генерация алёртов внутренней системой мониторинга с дальнейшим подтверждением проблемы инженерами github |
| Реакция |
В течение 15 минут после обнаружения проблемы:
- Остановка внутренней системы деплоя
- Привлечение координатора инцидентов
- Установка статуса `red` для системы
|
| Восстановление |
Восстановление бэкапов баз данных кластера (в том числе реплик) |
| Таймлайн |
- 2018-10-21 22:52 UTC Начало деградации кластера БД
- 2018-10-21 22:54 UTC Алёрт внутренней системы мониторинга
- 2018-10-21 23:02 UTC Подтверждение проблемы инженерами
- 2018-10-21 23:07 UTC Блокировка внутренней системы деплоя
- 2018-10-21 23:09 UTC Изменение статуса сервиса на yellow
- 2018-10-21 23:11 UTC Привлечение координатора инцидентов, изменение статуса сервиса на red
- 2018-10-21 23:13 UTC Обнаружение конкретной проблемы с кластерами БД
- 2018-10-21 23:19 UTC Частичная контролируемая деградация сервисов записи данных в БД
- 2018-10-22 00:05 UTC Разработка плана по восстановлению данных из бэкапов
- 2018-10-22 00:41 UTC Начало процесса восстановления данных из бэкапов
- 2018-10-22 06:51 UTC Начало второго этапа восстановления данных из бэкапов
- 2018-10-22 07:46 UTC Подробное оповещение пользователей о проблеме
- 2018-10-22 11:12 UTC Завершение процесса восстановления данных. Начало процесса реплицирования данных между кластерами.
- 2018-10-22 13:15 UTC Попытки в ручном режиме ускорить процесс репликации данных
- 2018-10-22 16:24 UTC Завершение процесса репликации данных.
- 2018-10-22 16:45 UTC Обработка фоновых задач, накопившихся за время аварии. Удаление устаревших задач.
- 2018-10-22 23:03 UTC Восстановление работы сервиса в штатном режиме.
|
| Последующие действия |
- Устранение несоответствий в данных
- Улучшение качества коммуникаций с пользователями
- Выполнение множества технических инициатив
- Развитие направлений "fault injection" и "chaos engineering"
|