Mackerel SREチームが実践する障害対応の重大度判断・役割分担テンプレート「Incident Severity Levels」を公開

 

 

Mackerelの開発・運用を支えるSREチームの知見をもとに作成した「Incident Severity Levels(インシデント重大度レベル)」テンプレートを公開しました。

本テンプレートは、障害発生時の重大度判断や役割分担、エスカレーション基準などを整理するためのテンプレートです。

ダウンロードはこちら 

Incident Severity Levelsとは

Incident Severity Levels(インシデント重大度レベル)とは、障害やインシデントの重大度を分類し、対応方針や役割分担を整理するための考え方です。障害発生時に、

  • どの程度深刻な障害なのか

  • 誰が対応するのか

  • どのようにエスカレーションするのか

  •  障害解消後の事後対応優先度をどう決めるのか

といった判断基準をチーム内で揃えることで、障害対応時の判断や役割分担を整理しやすくなります。

障害対応時に起こりやすい課題

障害対応の基準が整理されていない場合、

  • 障害発生時の初動判断が属人化する

  • エスカレーション判断が曖昧になる

  • 対応優先度の認識がチーム内でずれる

  • 障害解消後の事後対応が後回しになってしまう

といった課題につながることがあります。

Incident Severity Levelsを活用することで、重大度ごとの判断基準や役割分担、障害解消後の対応優先度などを整理できます。

Mackerel SREチームの実運用をもとに作成

本テンプレートは、Mackerelを提供する株式会社はてなのSREチームが、実際の運用で利用している内容をもとに作成しています。

重大度ごとの判断基準だけでなく、

  • 重大度判定フロー(デシジョンツリー)
  • インシデント発生時の役割分担
  • 障害解消後の事後対応優先度
  • Severityごとの参考事例

など、実運用を踏まえた内容を含んでいます。

また、Markdown形式のため、チームのドキュメント環境に合わせてそのまま利用できます。

活用シーン

  • 障害対応時の重大度判断基準の整備
  • エスカレーション基準の整理
  • チーム内の共通認識づくり
  • インシデント対応フローの見直し
  • 新規サービス・既存サービスの運用改善

Incident Severity Levelsテンプレートは無料でダウンロードできます。障害対応フローの整備や運用改善にぜひご活用ください。


Incident Severity Levelsのダウンロードはこちら 

チームで監視をはじめましょう!