多数のシステム監視をどう効率化?
クラウドのログをオンプレミス環境に接続して24時間集中監視を実現
JR東日本情報システムが進めるシステム監視の統合
システムの運用管理では、膨大なアラート対応に疲弊している現場が多い。多数のシステムを抱えている企業ほど、ログやアラート情報をどう効率的に管理してさばくかは喫緊の課題だ。昨今はクラウドシフトの機運が高まっていることもあり、その課題はより複雑化している。JR東日本の膨大なシステムの運用管理を一手に担うJEISの事例から、システムの“統合運用管理”におけるリアルな課題と解決策を探る。
東日本旅客鉄道(以下、JR東日本)のIT基盤構築、運用管理を行うJR東日本情報システム(以下、JEIS)は、鉄道事業をはじめ交通系ICカード「Suica」や駅サービス、JR東日本の200近い社内システムの運用管理を担っている。データセンターの管理やセキュリティ対策も担当する同社は、JR東日本グループの事業をIT面で支える存在だ。
JR東日本グループの主要なシステムはオンプレミスとクラウドに構築しているが、管理サーバはシステムごとに独立している。JEISは各サーバとシステムのログ、エラーなどのアラート情報を1カ所にまとめたシステムを「統合運用管理」と呼び、監視業務に利用している。
各システムの監視方式は、規模によって異なる。大規模なシステムは、各システム基盤に日立製作所(以下、日立)の統合システム運用管理 「JP1」をインストールしてログを抽出(集約)し、統合運用管理にそのデータを送出している。JP1が入っていない小規模なシステムは、サーバやプロセスの監視を「統合運用管理側から」アウトバウンドで行っている。
統合運用管理で集約した監視情報は、24時間稼働の部署「中央指令室」に送られる。中央指令室では「JP1/Integrated Management」(以下、JP1/IM)*の統合コンソールで監視情報を一元管理し、異常発生時は指令室内の警告灯が鳴動する。これが現場に問い合わせるための電子メールや電話システムなどと連携され、速やかな復旧につながる。
JEISのデータセンターで運用しているオンプレミスのシステムは、2012年からこのような運用管理体制を継続しているという。
柏崎 雄介 氏
JEIS クラウド基盤部
データセンター基盤プロジェクト エキスパート
そのような中でJEISは、「Microsoft Azure」(以下、Azure)に共通基盤を新たに構築した。狙いは「今後のクラウド利用を促進するため」だ。
世の風潮において、クラウドの利用範囲は拡大すると予想される。先を見越したリスクマネジメントは多くの企業にとって重要なトピックだ。JEISでもパブリッククラウドの共通基盤を作成する中で、クラウドインフラの監視が重要課題の一つになっていた。そこで同社が計画したのが、オンプレミスで稼働している統合運用管理の環境とパブリッククラウドを連携させ、一体で監視できる仕組みの構築だ。
「中央指令室による24時間監視の体制が出来上がっており、この監視体制を強化したいと考えています。そのため、パブリッククラウドの監視についてもJP1/IMへ情報をつなぎ込んでいく仕組みを開発しました」と、JEISの柏崎雄介氏は語る。
柏崎氏のチームが最初に直面した課題は「Azureの稼働状況を示すログとJP1をどうやってつなぐか」だった。
「統合運用管理と連携するためのツールは、当然ですがAzureには用意されていません。開発が必須なのは取り組みの当初から想定していました。カギは、Azureが標準で出力しているログをどうやってJP1のフォーマットに変換するか、という点でした」
過去にはAzureで稼働する仮想サーバなどを監視するため、インフラそのもの(IaaS)の情報を連携する目的でJP1/Baseのログ転送を利用していた。しかし柏崎氏によれば、これはAzureVM(仮想サーバ)内部のイベントやログを転送する仕組みであるため、AzureVM自体やサーバOSが動いているかどうかの確認はできても「AzureVMサーバ外のクラウドサービス側でどんな障害が起きているか」を確認可能な仕組みではなかった。
「一元管理するためには、オンプレミスとパブリッククラウドのどちらも同じように、インフラの障害内容が分かる仕組みを作ることが必要でした」と、柏崎氏は当時を振り返る。
連携ツールの開発にあたり、まずはクラウド側で提供されている「Azureモニター」など標準的な監視の仕組みを活用することを検討した。同時に、統合運用管理側は既存システムをそのまま利用し、コストを抑えることをめざした。
JEIS社内でこうした検討をしている中、ふと柏崎氏は「JP1側にAzureとの連携ツールがあるのではないか」と思い立った。日立に問い合わせてみると、予想通り連携ツールが用意されていることが分かった。純正のコネクターであれば、既存のJP1を利用した監視システムとの接続も問題ない。ならばまずはそれを使うという方針で導入プロジェクトがスタートした。
JP1のコネクターを使った連携ツール開発は順調に進んだが、改修が必要な局面はあった。Azureでは、標準機能の監視ツールである「Azureモニター」によって「Log Analytics ワークスペース」にログが集約される。連携ツールはそこに集まった情報をJP1に送信する役目を担うが、コードの変換やエスケープ処理などの部分で仕様の確認が必要になった。
「『できるはずなのにつながらない』という部分が数カ所あり、確認するとAzureの仕様を見ただけでは不明なデータ欠落などがありました。その確認を日立と共同で進め、不具合がある部分は連携ツールを改修してデータを取り出してもらえるようにしました」
2022年4月に開発を開始し、2023年4月の稼働開始を目標として進行した。しかし、上記のエラー対策が期限に間に合わない見込みの箇所が出てきた。
「当初考えていたよりもインタフェース部分の対応に時間がかかったという印象を持っています。改修が間に合わないところは『エラーで連携できません』ではなく、JP1で読み込めるコードで『エラー』と出力する形で、暫定的な改修を日立に入れていただきました。そのおかげで、期限までにAzureのログの取り出しと連携は完了できました」
JEISのAzure環境イメージ(提供:日立)
ここが、監視のためのシステムが通常のシステムと違う点だと柏崎氏は指摘する。「連携もできない、『エラー』情報もJP1に送れないという状態でシステムが稼働していたら、システムを運用するメンバーはAzureのコンソールに毎日ログインして稼働状況を確認しなければなりません。これではJP1/IMの統合コンソールを利用する価値は半減してしまいます。自動化するにしても、Azureに直接アクセスしてJP1を介さない監視運用の仕組みを別途開発して、関係各所と調整しながら大掛かりな作業をする必要が生じることになります。そうならなかったのは、日立の強力な支援のおかげです」
こうして2023年7月から、連携システムは無事に稼働した。エラーを出力していた部分も改修して、正しいログを出力できるようになっている。
開発期間を振り返り、柏崎氏は日立の支援体制を高く評価する。
「Azureからのログメッセージがなぜ欠落しているのかといった課題の解決は、当社だけではノウハウが足りませんでした。日立がログの出どころまでたどって調査してくれたことで、深い部分の確認ができました。連携ツールの改修が必要な場合も、当社向けの特殊なカスタマイズでなく一般的なスクリプトで対応してもらえたので、導入後も標準的なサポートのみで運用できています。他のベンダーでは期限までに作るのは難しかったと、今では思っています」
現在(2024年11月時点)は、Azureで稼働する9システムについて、統合運用管理システムとの連携が完了している。今後連携する予定のシステムもあり、連携ツールの活用が進行中だ。
柏崎氏は、「JP1のAzure連携ツールの導入後、オンプレミスで構築した統合運用管理のプロセスにパブリッククラウドのログを合流させて、統一したポリシーで運用できることを確認しました」と現状を説明して続ける。
「当社はシステムのモダナイズを大方針として掲げており、今後もクラウドシフトを進めていきます。監視対象のクラウドシステムは増えますが、現在のシステムで対応可能だと考えています。将来的には、Azure以外のパブリッククラウドを併用する可能性も見据えています」
最後に柏崎氏は「JP1の機能で設定作業など運用の自動化も可能だと思いますので、今後導入できるかどうかを検討したいと考えています。クラウドインフラの監視についても、対象をPaaSにも拡大するなどさらに広い範囲をJP1で監視できるようになることを期待しています」と語った。