Mackerelの開発・運用を支えるSREチームの知見をもとに作成した「Incident Severity Levels(インシデント重大度レベル)」テンプレートを公開しました。
本テンプレートは、障害発生時の重大度判断や役割分担、エスカレーション基準などを整理するためのテンプレートです。
Incident Severity Levels(インシデント重大度レベル)とは、障害やインシデントの重大度を分類し、対応方針や役割分担を整理するための考え方です。障害発生時に、
どの程度深刻な障害なのか
誰が対応するのか
どのようにエスカレーションするのか
障害解消後の事後対応優先度をどう決めるのか
といった判断基準をチーム内で揃えることで、障害対応時の判断や役割分担を整理しやすくなります。
障害対応の基準が整理されていない場合、
障害発生時の初動判断が属人化する
エスカレーション判断が曖昧になる
対応優先度の認識がチーム内でずれる
障害解消後の事後対応が後回しになってしまう
といった課題につながることがあります。
Incident Severity Levelsを活用することで、重大度ごとの判断基準や役割分担、障害解消後の対応優先度などを整理できます。
本テンプレートは、Mackerelを提供する株式会社はてなのSREチームが、実際の運用で利用している内容をもとに作成しています。
重大度ごとの判断基準だけでなく、
など、実運用を踏まえた内容を含んでいます。
また、Markdown形式のため、チームのドキュメント環境に合わせてそのまま利用できます。
Incident Severity Levelsテンプレートは無料でダウンロードできます。障害対応フローの整備や運用改善にぜひご活用ください。