株式会社ベネッセコーポレーション

監視サービスMackerelを1,000台規模で展開 カスタムメトリックで監視を「育てる」

Mackerel導入事例 株式会社ベネッセコーポレーション

株式会社ベネッセコーポレーション https://www.benesse.co.jp

Mackerel導入事例 株式会社ベネッセコーポレーション
  • ベネッセインフォシェル

    インフラサービス部 副部長

    黒川 高広氏

  • ベネッセインフォシェル

    インフラサービス部

    佃 勇紀氏

  • ベネッセインフォシェル

    インフラサービス部

    泉 大地氏

  • ベネッセホールディングス

    DXテクノロジー推進室エグゼクティブアーキテクト

    植田 省司氏

構成:星 暁雄

記事公開日: 2021年12月 · 所属はインタビュー当時のものです

情報システムのクラウドシフトを進める株式会社ベネッセホールディングスは、1,000ホスト以上の規模でサーバー監視サービスMackerelを導入(記事執筆時点)しました。インフラチームの運用スキルと、リアルタイムに指標を可視化するMackerelの機能がかみ合って成長していく『育てる監視』により、障害の予兆を事前に検知できるようになったのです。目標は「障害発生件数を前年比50%まで減らす」でした。

サーバーは生きているのに、サービスが止まった

植田省司氏(以下、植田)「従来のサーバー監視は『目をつぶっていた』に等しかったことです。本当に知る必要がある指標が見えなかったのです。Mackerelを導入したことで、必要な指標を選んで可視化し運用に習熟していく『育てる監視』が可能になりました。インフラ運用部門だけでなく、開発部門や事業部門も含めた関係者がMackerelの画面で指標を共有でき、『自分ごと』として監視に参加できるようになりました」

同社がMackerelを導入で得たメリットを端的に示す言葉ではないでしょうか。以下、同社がどのようにMackerelを導入してポテンシャルを引き出していったのかを見ていきます。

Mackerel導入の契機となったのは、2017年のある日、植田氏がシステム障害に直面したことです。

植田「隣のチームがあるサービスをリリースしました。以前から導入していた別の監視ツールでサーバーの死活管理を実施しており、ツールはサーバーが正常に動いていることを示していました。ところがお客様より電話があり『サービスが止まっていて使えない』といいます。死活監視上サーバーは動いていたが、実際にサービスは止まっていたためサービスのレイヤーまで監視する必要性を実感しました」

サーバーを監視していたにも関わらず、お客様より電話がかかってくるまで障害に気がつけなかった
——このことに植田氏は衝撃を受けました。サービスが期待される形で動いているかどうか、それを把握できる監視の仕組みの必要性を強く痛感したのです。これがMackerel初期導入の動機となりました。

本当に必要な指標を可視化するため、カスタムメトリックが魅力的だった。

「必要な指標を監視できていなかった」との問題意識を抱いた植田氏の目に止まったのが、サーバー監視サービスMackerelでした。Mackerelの大きな特徴のひとつは、ユーザーが独自の指標(カスタムメトリック)を収集、可視化できることです。サーバー上で稼働中のサービスがきちんと動いているかどうかを把握するために必要な指標を独自に定義して取得することができるのです。

手軽に試せる範囲でも分かることが多い。触ってみれば話は早い。

Mackerelは無料で試用できます。植田氏は、東京から岡山の本社まで帰る新幹線の移動時間を使って、Mackerelと組み合わせるカスタムメトリック取得のためのスクリプトを自作してみました。監視対象のサーバーとして低価格の超小型ボードコンピュータRaspbberry Piを使いました。インフラ管理の仕組みというと大規模、複雑なものを想像しがちです。しかし、手軽に試せるような小規模な構成であっても実際に手を動かして得られる気づきは多かったのです。植田氏は手応えを感じました。

例えば、サーバーの負荷が上がっているなら、ユーザーから多数のリクエストが届いている。そのとき1人あたり何秒のレスポンスで応答しているのか、CPUリソースは足りているのか——Mackerelを使うことで、知りたい指標を「ひとつながり」の形で整理して見ることができます。さらに、URL外形監視の機能を使うことで、実際に外部からhttpリクエストを送ってユーザー視点で稼働状況を確認できるようになりました。

試用で手応えを得た植田氏のチームでは2017年11月にMackerelを正式に導入しました。これがベネッセグループでの初導入となりました。

大量導入へ——品質を制御するにはまず観測から

ベネッセホールディングス 植田 省司氏
ベネッセホールディングス 植田 省司氏(撮影: 2021年11月)

その後も、植田氏の取り組みは続きます。狙いはMackerelのメリットを社内で知ってもらい、より大規模に展開することでした。全社集会でMackerelのメリットを紹介する取り組みも行いました。こうした『育てる監視』の活動はやがて実を結び、2021年に入ってからベネッセグループ全社でMackerelを大量導入する運びとなったのです。

300台規模の大規模システムでMackerelが本領を発揮。これが全社展開のきっかけとなった。

大量導入の契機となったのは、2021年2月に起きたある大規模システムの出来事でした。クラウド上の300台のサーバーに展開した大規模システムの性能が思うように出ない問題に直面しました。この問題を解決するために開発チームとインフラチームが手を組み、昼夜突貫で問題解決にあたることとなりました。

この時の問題解決でMackerelは本領を発揮しました。性能劣化の予兆を早期に発見し、傷口が広がる前に対応することにしたのです。

それに先立ち社内で地道な普及活動をした。手を動かしてくれる若手も現れた。

植田「観測できていないものは直せない。そこでMackerelを導入し、指標を見ながら数カ月にわたりApacheやTomcatのチューニングを徹底的に行いました。結果、性能問題を解決できたのです」

この様子を見ていたのが、ベネッセグループのサーバーインフラを引き受けている株式会社ベネッセインフォシェルの黒川高広氏(インフラサービス部 副部長)でした。 「ここまで便利なら、Mackerelを全社のサーバーに導入しても手間に見合うメリットがある」と黒川氏は考え、全社のサーバーにMackerelを導入する運びとなります。 新たに導入したサーバーは400台以上でした。従来から導入していたサーバーと含め、合計で1,000台規模のサーバーをMackerelにより監視する形となりました。

監視を育て、障害を未然に防ぐ

Mackerelを大量導入することで何が変わったのか。

黒川高広氏(以下、黒川) 「以前は『アラートが上がれば対処する』形でした。Mackerelを入れたことで『アラートが上がる前に対処する』形ができました。また、システムに愛着を持って見守ることができるようになりました」

従来型の監視ツールでは、例えば「CPU負荷が80%を超えればアラート」といった設定をしていた。アラートが出た時にはもう遅く、障害の対応をしなければなりません。Mackerelの導入により、必要な指標(メトリック)を点ではなく「面」でモニタリングできるようになったのです。例えば『どこから正常値で、どこから異常値か』を柔軟に変更できます。チームがシステムの挙動に習熟し、指標を厳選してモニタリングしていくことで、障害の予兆を事前にキャッチできるようになりました。いわばMackerelの監視画面と運用チームのスキル・知識が共に育っていくイメージです。これを同社は『育てる監視』と表現しています。

黒川 高広氏(左)と植田 省司氏(右)
黒川 高広氏(左)と植田 省司氏(右)(撮影: 2021年11月)

障害が起きてからアラートを受け取るのでなく、予兆検知で未然に防ぐ。

Mackerelの本領が発揮されるのは、障害の予兆の検知です。障害が起きる前に、その予兆を察知して対処する。障害そのものの発生を前年比50%に減らすことが当面の目標です。

黒川「本当にやりたいことは予兆検知。障害が起きてから対処するのではなく、未然に防ぐことで障害を半減できます。それがMackerelの価値であり、サーバーインフラの挙動を知っている僕らの専門性です。インフラ業務で大変なのは、夜中だろうが祝日だろうが、お客様を支えるシステムに問題が発生すれば対応しなければならない点です。それをなんとかしたいと考えていました。Mackerelの監視を育てることにより予兆検知が可能となってきました」

チームの知識・専門性とMackerelの可視化の相乗効果で「監視を育てる」

もちろん『育てる監視』の取り組みは、チームがサーバーインフラの挙動に習熟していることが前提です。実際に使ってみなければMackerelの良さは分かりにくいためです。実際に使っている現場の人々の声を聞いてみました。

黒川「Mackerelの存在を知ってから全社導入するまでには時間がかかりました。しかし触り始めた後は早かった。『こんなに簡単にできるのか』と思いましたね。監視といえば泥臭いイメージだったが、MackerelはUIも見栄えが良いですね」

佃勇紀氏(以下、佃)「認証システムの監視では、DB接続数などを可視化、アクセスの集中の度合いをモニタリングしています。従来はログを解析しないと分からなかったことが、目の前でグラフによりリアルタイムで可視化されるようになったのは良かったです」

泉大地氏(以下、泉)「Mackerelは考え方がシンプル。指標の数値をプログラムで取得して渡してやれば、グラフ化はMackerelがやってくれます。時系列データの管理も楽で、過去の数字がスムーズに閲覧できます。楽に監視を育てていくことができるのです」

植田「スキルがあればすぐ形になります。"Just Do It"、とにかくやってみればいい。会議で『試してみて欲しい』と伝えると、若手ががんばって翌日には動かして見せてくれたことがありました。敷居は僕たちが思っている以上に低かった」

黒川「導入、使いこなしでは『とにかくやってみる』という文化が大事でしたね」

Mackerelの特徴、特にカスタムメトリックの可視化のメリットが伝わってくるのではないでしょうか。

泉 大地氏(左)と佃 勇紀氏(右)
泉 大地氏(左)と佃 勇紀氏(右)(撮影: 2021年11月)

シンプルさを保ち、複数のチームで監視を共有する

「Mackerelの大量導入により、ベネッセグループ全体で監視の水準が3段階ほど上がった感覚があります。みんなが『自分ごと』として監視に取り組むようになりました」と植田氏はこう振り返ります。

指標を全社レベルで共有できた。

同社のインフラを監視するMackerelの画面は、今ではインフラチームだけでなく、開発部門、各事業部門、さらには経営層までもが見ています。同じ指標、同じグラフを見て議論できるため、資料を作成して報告する手間がなくなりました。開発部門とインフラ部門の連携もより緊密になりました。

黒川「監視画面で表示する指標が増えて複雑になってしまうと叱られる(笑)。可視化が目的なのではないですね。大きな視点で異常に気付くことが大事です」

可視化が目的ではなく、シンプルな監視画面にこだわった。

植田「監視画面を見る全員がサーバー管理のエキスパートではありません。主要メトリックが『だいたい桁が正しいよね』という水準で分かりやすく表示されていることが大事です。 それが理解できないと、さらに複雑なシステム指標は理解できませんから」
『育てる監視』ではインフラ管理に習熟、練度を上げていくことでより障害に強いシステムができあがります。

「100点でリリースできるシステムはありません。60点でリリースするシステムでも、しっかり監視をすることで、利用状況の変化やシステムリソース状況の変化を把握し、常に安定稼働するシステム運用を目指します」

ベネッセグループはMackerelで監視を育てアップグレードしたのです。

監視をアップグレードすることの大変さ

Mackerelチーム プロデューサー 加古 直己
株式会社はてな
Mackerelチーム プロデューサー
加古 直己

 

まずは今回の取材を受けてくださった植田さん、黒川さん、佃さん、泉さん本当にありがとう御座いました。 ずっとベネッセ様のストーリーを記事にしたいと以前より考えており、なんとか形にすることができて感謝しております。 ベネッセ様のような大きなグループ企業で、これまでのあり方や、やり方を変え、Mackerelを大規模に導入いただくプロセスは想像以上に大変だったのではないでしょうか。 Mackerelの容易さや柔軟さが監視をアップグレードする一助となっていたら幸いです。

クラウドに適応するために監視を育てていくことは我々のプロダクトの中心に据えられているコンセプトだったりするので、 ベネッセ様が体現してくださり本当に嬉しかったです。 Mackerelは組織の壁や文化を取り払いコラボレーションを活性化していただくための橋渡しをするツールでありたいと思っておりますので、 これからもお客様の声に耳を傾け、寄り添うサービスづくりを心がけていきたいと思います。

導入事例資料をご希望の方はこちらをどうぞ。

資料をダウンロードする
導入事例資料

チームで監視をはじめましょう!