Mackerel SREチームが実践する障害対応の重大度判断・役割分担テンプレート「Incident Severity Levels」を公開
Mackerelの開発・運用を支えるSREチームの知見をもとに作成した「Incident Severity Levels(インシデント重大度レベル)」テンプレートを公開しました。
本テンプレートは、障害発生時の重大度判断や役割分担、エスカレーション基準などを整理するためのテンプレートです。
Incident Severity Levelsとは
Incident Severity Levels(インシデント重大度レベル)とは、障害やインシデントの重大度を分類し、対応方針や役割分担を整理するための考え方です。障害発生時に、
-
どの程度深刻な障害なのか
-
誰が対応するのか
-
どのようにエスカレーションするのか
-
障害解消後の事後対応優先度をどう決めるのか
といった判断基準をチーム内で揃えることで、障害対応時の判断や役割分担を整理しやすくなります。
障害対応時に起こりやすい課題
障害対応の基準が整理されていない場合、
-
障害発生時の初動判断が属人化する
-
エスカレーション判断が曖昧になる
-
対応優先度の認識がチーム内でずれる
-
障害解消後の事後対応が後回しになってしまう
といった課題につながることがあります。
Incident Severity Levelsを活用することで、重大度ごとの判断基準や役割分担、障害解消後の対応優先度などを整理できます。
Mackerel SREチームの実運用をもとに作成
本テンプレートは、Mackerelを提供する株式会社はてなのSREチームが、実際の運用で利用している内容をもとに作成しています。
重大度ごとの判断基準だけでなく、
- 重大度判定フロー(デシジョンツリー)
- インシデント発生時の役割分担
- 障害解消後の事後対応優先度
- Severityごとの参考事例
など、実運用を踏まえた内容を含んでいます。
また、Markdown形式のため、チームのドキュメント環境に合わせてそのまま利用できます。
活用シーン
- 障害対応時の重大度判断基準の整備
- エスカレーション基準の整理
- チーム内の共通認識づくり
- インシデント対応フローの見直し
- 新規サービス・既存サービスの運用改善
Incident Severity Levelsテンプレートは無料でダウンロードできます。障害対応フローの整備や運用改善にぜひご活用ください。