サーバーから上がる50万件超のイベントをAIで処理
オペレーターの業務負荷を劇的に削減
大塚商会の事例にみる「AI for IT Operations」の導入効果とは
幅広いIT ソリューションを提供する株式会社大塚商会では、顧客に導入したシステムが稼働するサーバーから発生するイベントを監視し、日々迅速かつ高品質の対応を行っている。監視対象のサーバーが4万台を超える中、この業務を効率化するために株式会社日立製作所の「AI for IT Operations」を導入した。未知イベントの判定をAIモデルによって行うことで、人手によるイベント対応工数を大幅に削減するとともに、熟練技術者に依存していた判断の属人化を解消した。
株式会社大塚商会
たよれーるコンタクトセンター
サーバーサポート1課 課長
田辺 恭之 氏
常に顧客の目線で「ITでオフィスを元気にする」を実践するソリューションプロバイダーの株式会社大塚商会(以下、大塚商会)は、特定のメーカーにとらわれないマルチベンダー対応とオフィス用品からIT機器全般まで幅広くカバーするマルチフィールド対応により、全国の中小企業を中心にワンストップのソリューションとサポートを提供している。
その一環として展開しているのが「サーバー通報サービス」だ。大塚商会が全国の企業に販売し、サポート契約を結んでいる約4万台のサーバーの稼働状況を監視するマネージドサービスで、発生したアラートやエラーなどのイベントを早急に切り分け、対処が必要と判断された場合、適切な担当部署にエスカレーションしてリモートメンテナンスやオンサイト保守などをアサインする。
「サーバーの設置場所はお客さまの社内に限らず、利用しているデータセンターやパブリッククラウド(Microsoft Azure)まで広がります。さらに監視対象はハードウェア故障だけでなく、そのサーバーとセットで提供した業務システムやCADなどのアプリケーションまで及びます。こうした広範囲なマネージドサービスをリーズナブルな価格で提供しているのは、大塚商会ならではの強みと自負しています」と大塚商会 たよれーるコンタクトセンター サーバーサポート1課 課長の田辺恭之氏は話す。
しかし、これだけ膨大なサーバーを管理していると、大塚商会のもとには日々膨大なイベントが上がってくる。その数は1日あたり50万件に及ぶこともある。
「対応が不要な既知のイベントは、フィルタリングシステムを用いて機械的に処理してTo-Doリストから落とし、静観しているのですが、アラートやエラーメッセージの文字列の一部が異なるだけでも未知イベントとして扱われることになります。こうしてすり抜けてくるイベントだけでも相当な数に上り、人的なリソースを使って対応にあたることになります。お客さまのサーバーに発生した問題をより迅速に解決し、運用品質を高めるためにはフィルタリングの精度をさらに向上する必要がありました」(田辺氏)
もっとも、これは容易なことではない。フィルタリングの精度を向上するためには、未知イベントとして上がってくるもののうち実際には既知イベントに該当するものはその業務プロセスに直接ひもづけるほか、特に対処を必要とせず無視してかまわないアラートやエラーについては新たなフィルターとしてマスターに追加登録する必要があるのだが、この作業は人に大きく依存するのである。
同じく たよれーる戦略推進室 システム戦略課 次長 柿崎敦氏は「イベントの中身を的確に判断できる知見をもっているのは『マスター職人』と呼ばれているごく少数のベテラン技術者のみで、マスターへの追加登録作業は完全に属人化した状況にありました。そもそもマスターに登録済みのフィルターそのものがすでに20万件を超えており、システムは限界に達していました」と当時を振り返る。
株式会社大塚商会
たよれーる戦略推進室
システム戦略課 次長
柿崎 敦 氏
この課題解決を模索する中で大塚商会が着目したのがAI(人工知能)の活用である。「フィルタリングシステムの強化を考えたとき、マスター職人に頼ったイベントの追加登録ではもはや今以上の精度向上を期待することはできず、ならばその作業をAIに任せてみてはどうかという発想に行き着きました。これならばフィルタリングの精度向上をAIモデルの強化によって実現することができます」(柿崎氏)
だが、さまざまなベンダーに提案を依頼しても、期待に応えるようなソリューションはなかなか得られなかった。大塚商会がAIを活用した課題解決に着目したのは2018年のことで、世間的にもAIは大きなブームを巻き起こしていたものの、まだ一部のアーリーアダプターしか使いこなせない特別なシステムの域を超えてらず、実務レベルの現実解には熟していなかったのだ。
そうした中で出会ったのが、株式会社日立製作所(以下、日立)の「AI for IT Operations」である。これは日立が提供する「IT運用最適化サービス」のメニューの1つであり、システム運用業務において人の判断や分析が必要な作業、経験やスキルがないとできない作業にAIを適用することで、業務の効率化と作業品質の向上を支援するソリューションだ。まさに大塚商会が描いた課題解決の方向性と合致するものだ。
AI for IT Operationsの特長として、大きく次の3点を挙げることができる。
1つめは、「IT運用に特化したAI活用基盤を提供するため、導入や効果検証が容易」であることだ。AIを単なる部品として提供するのではなく、運用現場のユースケースに即して、オペレーターやエンジニアといった役割ごとのユーザーインターフェースや機能と組み合わせて提供するのである。
2つめは、「運用の追加や変更への対応や、継続的なAI育成が容易」であること。それまでの学習結果を踏まえた類推技術の活用や、現場からのフィードバックを学習する運用ユースケースにより、AIの精度が向上するように設計されている。
3つめが、「既存システムとの連携が容易」であることだ。日立は統合システム運用管理JP1の開発・サポートを通じて運用管理現場のニーズを把握しているため、既存システムとAIを連携させるAPI に工夫を凝らしている。AI連携部分の開発がスムーズに進められるようサポートも手厚く行っており、効率よくAIを導入・運用することができる。
そして大塚商会がAI for IT Operationsを採用する決め手となったのが、日立による手厚いサポート体制である。
「私たち自身のソリューションビジネスでも実感していることですが、どんなITシステムもインフラと利用技術が一体化していないと使い物になりません。特に今回の取り組みではお客さまのサーバーから上がってくるさまざまなアラートやエラーメッセージを言語解析するAIモデルを開発する必要があり、的確なサポートが伴っていないと私たちが目標とする理想の運用にたどり着くことができません」と柿崎氏は説明する。まさにこれに応えることができたのがAI for IT Operationsというわけだ。
「実際の構築では、開発したAIモデルをコンテナ化してクラウド上のインフラに展開・管理し、AIモデルの洗練化・強化を図るという開発サイクルをアジャイルに回す必要があります。これに対して日立は、プロジェクトの初期段階からインフラ、データエンジニアリング、AIモデル開発の各分野のプロフェッショナルが結集したサポート体制を整えてくれました。この点でも日立と比較対象となる他のベンダーはありませんでした」(柿崎氏)
こうしてAI for IT Operationsをベースとしたフィルタリングシステム刷新への取り組みが始まった。
まず3か月間をかけて実施したのが、業務効率改善に向けて効果の見込みを立てるPoC(概念実証)である。大塚商会と日立は緊密な連携のもと、マスターに登録された既知のイベントを起点とする約20万件のフィルターがAI for IT Operationsに入力可能な形式かどうかを見極めた。同時に、ミーティングを重ねて業務プロセスをひも解いていった。
「どの作業にどれだけの工数を要しているのか、属人的になっている作業は何かを徹底的に洗い出していきました。その結果、AI for IT Operations適用により90%以上の精度で効率改善が可能になるという期待効果を定量的に示すことができました」(柿崎氏)
なお、日立はこのシステムのイベント対応業務に特化したAIの精度をさらに向上させるべく、大塚商会から提供された業務知見をもとに独自のカスタマイズを実施。これにより最終的に約95%の精度を実証することができた。また、AI for IT Operationsと既存業務との連携をAPIにより容易に実現できることも、このPoCを通じて大塚商会が高く評価するポイントだ。
これらの手応えを経てプロジェクトはいよいよ構築フェーズへと進んだわけだが、そこでは具体的にどのような形でAIモデルの開発が行われたのだろうか。その流れは、大きく次のようなものである。
@既存フィルターからモデル作成
20万件以上のフィルターを登録したマスターから約5万件を厳選し、それをもとに既知イベントを引き当てるAIモデルのプロトタイプを作成する。
Aモデルの評価
時期を変えて取得した2つのイベント集合を用いて既知のイベントを引き当て、正答率を評価する。この作業には大塚商会の業務担当者があたりAIの精度を採点する。
Bモデルのチューニング
不正解だったケースの要因を分析・考察し、AIモデルのチューニングを実施する。
上記のうちAとBのプロセスを繰り返し実施することで、大塚商会と日立はAIモデルを洗練化していったのである。@では既存フィルターのクレンジングも行っている。
株式会社大塚商会
たよれーる戦略推進室
システム戦略課
シニアアプリケーションスペシャリスト
長谷川 剛志 氏
「AI導入を機に機械学習の元となる既存フィルターを精査し、マスターのスリム化を図りました。重複するフィルターや現在は出力されなくなった古いイベントのフィルターなどを除外することで、マスターの登録件数を20万件から5万件に削減。これにより二重引き当て、誤引き当ての原因を排除することができました」と、たよれーる戦略推進室 システム戦略課 シニアアプリケーションスペシャリスト 長谷川剛志氏は説明する。
もう1つ特筆しておくべきが、受け取ったイベントからの不要な文字列を自動除去する施策である。イベント中のタイムスタンプなどの可変文字列をあらかじめ排除しておくことで、文字列の不一致により既知のイベントが未知のイベントとして認識されてしまい、引き当て漏れが発生することを防ぐのである。
「業務担当者の知見を活用して可変文字列を除去するための正規表現を作成し、発生したイベントにこの正規表現を適用してAIに投入します。さらに既知イベントにも正規表現を適用し、可変文字列を除去したうえで類似度を比較します。これによりAIが提示する第一候補が正解となる率は最終テスト段階では97.6%となりました」(長谷川氏)
AIをアドオンすることで刷新されたフィルタリングシステムは2020年5月にリリースされ、その後も定期的に正解率測定を行い、業務視点で改善サイクルを回しながら運用を続けている。そうした中で大塚商会は、人手によるイベント対応工数を大きく削減している。
大塚商会におけるAI for IT Operationsの導入効果
AI for IT Operationsの導入以前は、フィルタリングシステムをすり抜けてくるすべての未知のイベントを業務担当者が手動で切り分け、さらに対応した後にマスター職人によりフィルターに追加登録しなければならなかった。これに伴い発生していた作業工数は3人/月に上っていた。
これに対して新しいフィルタリングシステムが稼働を開始した現在は、フィルターで捕捉できないアラートやエラーメッセージをAIが集約するため、判定対象とするイベントそのものの数が激減している。
「最終的に未知のイベントとAIが判断したものだけを担当者が判定すればよいため、作業工数は従来の半分の1.5人/月に削減されています」と田辺氏は話す。
さらに未知のイベントとして上がってくるアラートやエラーの確認作業やマスターへの追加登録作業も大幅に簡素化されている。
「これまでは未知のイベントが発生した際にExcelシートにまとめられた既知のイベントと照合するというオペレーションを行っていましたが、現在はAIから『既知のイベントの文字列違いかも?』といった提案がなされ、その候補をGUI上で選択するだけで簡単に既知のエラーとひもづけることができます。提示された候補の中に一致するものがない場合に初めてマスターに追加登録することになりますが、その場合も設定すべき文字列をAIから提案してくれます」(長谷川氏)
「これまで少数のマスター職人に頼り切っていた登録作業の属人化をかなりの部分で解消することができ、より多くの担当者が対応できる作業の平準化に近づいたことは、経営層からも高い評価を受けているAI for IT Operationsの成果です」(柿崎氏)
もちろん大塚商会の取り組みはこれで終わるものではない。今回とったアプローチは次々に発生するイベントをAIモデルによってピンポイントで捉えるものだが、今後に向けては発生するイベントを時系列で捉えて分析することで、フィルタリングシステムのさらなる精度向上を図っていくことをめざしている。
対応しなければならないイベントをより効率的にスクリーニングすることで、担当者は問題解決に専念することが可能となり、その結果として大塚商会は提供するソリューションおよびサーバー通報サービスに対する価値と顧客満足を高めていこうとしている。