株式会社朝日新聞社 https://www.asahi.com/corporate/
株式会社朝日新聞社
メディア研究開発センター主査
山本 剛史氏(写真:左)
株式会社朝日新聞社
メディア研究開発センター上級研究員、博士(情報科学)
田森 秀明氏(写真:右)
朝日新聞社メディア研究開発センターは、新規事業開発や研究開発を担う2つのチームを統合して2021年に誕生した組織です。同組織の研究開発を支えるのが、GPU搭載サーバーをはじめとするオンプレミスサーバーやNAS。朝日新聞社メディア研究開発センターでは、2022年ごろからMackerelを導入し、複数あるサーバーを監視しています。Mackerelを選んだ決め手や、導入の効果、運用方法について、上級研究員の田森秀明さん、主査の山本剛史さんにお聞きしました。
2021年4月に発足したメディア研究開発センター。人工知能を始めとする先端技術と、新聞社ならではの豊富なテキストや写真、音声などの資源を活用して、文章校正AI「Typoless」、コンテンツ制作トータルサポートツール「ALOFA」などのプロダクトを展開。さらに、さまざまなデータを分析・活用して社会課題を可視化するデータジャーナリズムに取り組んでおられます。
Mackerel導入のきっかけとなったのは、開発環境の変化でした。メディア研究開発センターが発足した2021年ごろからAIに関する研究開発が一気に進展。サーバーの台数も増え、監視コストが少しずつ増えてきました。
特に問題になったのは、1台のサーバーが勝手に再起動を繰り返すようになったこと。原因を特定するために、サーバーを監視する必要に迫られたのです。
そこで田森さんは、サーバー監視ツールの導入を検討しました。ただし、なるべくコストをかけたくなかったため、当初は無料で利用できるツールを中心に考えたといいます。
「監視ツールといえば海外製のサービスが多いですが、それらは導入や設定が難しく、UIが日本人フレンドリーでなかったり、問い合わせがしにくかったりといった課題がありました。また、朝日新聞社で使用していた国内の大規模なサービスも検討しましたが、使用料が非常に高額で、専門の管理者を置く必要があり、候補からは外れました」(田森さん)
国内サービスで、導入が簡単、なおかつコストを抑えたい――。こうした条件にマッチしたのがMackerelだったのです。「Mackerelには有料プランと無料プランがありますが、まずは無料プランで使い始めました。無料プランだと台数は5台に限られますが、当時はサーバー台数も少なかったし、とりあえず再起動が勝手にかかるサーバーを監視したかったので問題はありませんでした」(田森さん)
Mackerelを使い始めて驚いたのは、導入の手軽さだったと田森さんは言います。「エージェントをインストールし、提供された1行のコマンドをサーバー上のターミナルで実行すれば、それだけで導入が完了するんです。この簡単さには驚きましたね」(田森さん)
しばらくMackerelの無料プランでサーバー監視を続けていた田森さんですが、途中で有料プランへ切り替えることに。理由は、サーバーの台数が増加し、田森さん個人での管理が現実的ではなくなったことでした。また、特にこの頃から、AIの研究開発で利用するGPUのリソースが枯渇する問題が持ち上がり、GPUの稼働状況を含めたサーバーのさまざまなメトリックの監視も必要になりました。
「AIの研究開発はGPUを使いますが、数に限りがあります。知らない間にメンバー間でGPUのリソースを奪い合い、枯渇することも珍しくありません。GPUが利用されていることに気づかず、他のメンバーが同じGPUを使用してしまい、せっかく何日もかけて進めていた学習がいつの間にか中断されるなどの問題も発生していました。メンバーからサーバーリソースの空き状況について問い合わせを受けるたびに、主に私がコマンドを打って確認してきましたが、サーバーが増えすぎてそれでは追いつかなくなったのです」(田森さん)
有料プランへの切り替えの際、他社サービスに変更する選択肢は考えなかったと田森さんは言います。「それだけMackerelの印象が良かったんです。1行のコマンドで導入が完了したインパクトが強く残っていました。導入や運用がしやすく、GPUもストレージも監視できる。専門の管理者を置く必要がないからコストも抑えられる。さまざまな観点から、有料だったとしてもMackerelがベストだと判断しました」(田森さん)
有料プランへの切り替え後も、メディア研究開発センターでは少しずつ導入ホスト数を増やし、現在ではすべてのサーバーにMackerelを導入しています。「コストがかかるといっても、Mackerelは安価なのでそれほどの負担ではありません。それで皆が幸せになれるなら、その方がいいですからね」(田森さん)
今後、新たにサーバーを増やした場合、そこにもMackerelを導入することになります。その際に生きてくるのが、田森さんが感動したという“1行のコマンドで導入が完了する手軽さ”です。「サーバーの監視業務は今、引き継ぎを行っているところです。導入が簡単ということは、引き継ぎも簡単ということ。Mackerelの導入手順はnoteで記事にして外部公開しているのですが、実はあの記事が手順書も兼ねているんです(笑)」(山本さん)
田森さん、山本さんのお二人がMackerelの運用で高く評価しているのが、UIの使いやすさです。
「MackerelのUIはとても見やすく、特に複数のサーバーの使用状況をグラフで可視化して一覧できるのが便利です。さらに、サーバー内のGPUごとに状態を確認できるのも助かりますね」(山本さん)
「全サーバーの状況を一気にチェックできるのは、複数台のサーバーでクラスタを組んで計算させる際にも役立ちます。以前ならサーバーを1台ずつ確認しなければいけませんでしたが、Mackerelならこのサーバーとこのサーバーが空いているから連結して使えるな、みたいにすぐ判断できますから」(田森さん)
現状だけでなく、過去の使用状況も把握できるようになったことで、将来の予測も立てやすくなったといいます。「Mackerelを導入するまでは、コマンドで調べたとしても、あくまで“今の状態”しか確認できませんでした。そのときはサーバーが空いていても、ずっと誰かが使っていて、たまたまその時間空いていただけかもしれません。にもかかわらず、空いているからいいだろうと他の人がサーバーを使い始めてしまい、バッティングするといったトラブルもありました。Mackerelを入れたことで、『昨日から誰も使っていないということは、このサーバーは空いているだろうな』みたいに予測してトラブルを防げるようになったんです」(田森さん)
サーバーの状況を可視化することで、トラブルシューティングにおける属人性も排除できたと山本さんは言います。
「サーバーにトラブルが起きたら、まずMackerelからの通知で検知してアラートを確認します。何時ごろに落ちたのかを確認して、そのとき誰がどんな用途で使っていたのかを検証するわけです。仮にMackerelを導入していなければ、すぐに検知できず、気づいてからサーバー内のいろいろなログを調査する必要があります。そうなると、トラブルシューティングを行うのはかなりの職人技になってしまいます。Mackerelのおかげで田森の手を借りずに私一人でも障害対応ができるようになりつつあります。」(山本さん)
現在はMackerelをSlackと連携、アラートを飛ばすようにしたことで、定期的にチェックする必要すらない常時監視が実現しているとのこと。見やすいUIのおかげで誰でもサーバーの状況を確認できるようになり、メンバーからの問い合わせも激減したといいます。
Mackerelがフィットするのはどのようなシステムでしょうか。田森さんは、「24時間365日、厳重に監視する必要まではないシステム」だと言います。
「弊社で言えば、新聞を発行するシステムは絶対に止めてはいけません。そのため、大規模なツールを、コストをかけて導入し、専門の部署を設けて大掛かりに監視する必要があります。ただ、メディア研究開発センターはそうではありません。もちろん、サーバーが止まってしまうのは問題ですが、会社にとって致命的ではないので、そこまでコストはかけられない。だけど、効率的に研究開発を進めるには監視ツールを入れる必要がある。そういった“ゆるい監視”を行うのにMackerelは最適だと思います」(田森さん)
AI時代になり、GPUサーバーの重要性は増しています。複数のサーバーを監視するためには専用のツールが必要になりますが、だからといってそこまで多くのコストや人員はかけられないという企業も多いのではないでしょうか。そんな悩みを抱えていたメディア研究開発センターにとって、Mackerelはまさに“ちょうどいい”監視ツールだったとのこと。これからもMackerelは、同様の課題に直面されたお客様に寄り添い続けます。
Mackerelは、株式会社はてなが提供する日本製のサーバー監視サービスです。登録ユーザー数876万人、月間ユニークブラウザ数1.96億人を誇る「はてな」の各種サービス(はてなブログやはてなブックマークなど)も、安定した運用の裏側でMackerelによって支えられています。サービス開始以来、累積ホスト数は275万台を突破し、利用するオーガニゼーション数も4万7千を超えるなど、日本国内にとどまらずグローバルに多くの企業・開発チームに選ばれてきました。Mackerelは、はてなが自社で培った大規模サービス運用の知見を余すことなく取り入れることで、クラウド時代の監視に求められる機能を継続的に拡充しています。
Mackerelはクラウド、オンプレミス、そしてハイブリッド環境まで柔軟に対応可能です。インストール型のエージェントにより、サーバーやコンテナのリソース状況を手軽に可視化できるほか、AWSやGCPなど主要クラウドとのインテグレーションを備えており、複雑化するシステム構成でも一元的な監視を実現します。また、通知についてはSlack、Teams、PagerDutyなど多様な外部サービスと連携可能で、アラートを迅速に関係者へ届ける仕組みを整えています。シンプルな操作性と直感的なUIを重視しながらも、詳細な閾値設定や条件分岐など、運用に不可欠な高度な機能も兼ね備えています。
MackerelにはAPM(Application Performance Monitoring)機能が搭載されており、アプリケーションレベルでの詳細なトレーシングを実現します。これにより、レスポンスタイムやエラーレート、処理のボトルネックを素早く特定し、サービス全体のユーザー体験を改善することが可能です。従来のサーバーメトリクス監視に加え、APMによってシステム全体の「健康状態」を多角的に把握できるため、インシデント対応のスピードと品質が大幅に向上します。Mackerelは今後も、進化し続けるクラウド・コンテナ技術やマルチクラウド環境への対応を強化し、さらに多様なインテグレーションを拡張していきます。日本発の監視サービスとして、現場の運用課題を解決するだけでなく、システムの価値を最大化し、ビジネス成長を支える基盤として利用され続けています。