ページの本文へ

Hitachi

システム運用に役立つ情報を提供システム運用ハック

オブザーバビリティ

システム障害の検知および調査を
効率よく行う方法

システム障害の検知および調査を効率よく行う方法

2025年1月22日公開

企業では、サービスを提供するシステムや基幹系システムなど複数のシステムを運用しており、ビジネスに影響を及ぼすシステム障害の検知、対策をスムーズに行うことは、多くの企業にとって重要な課題の1つです。

ここでは、統合システム運用管理 JP1を活用して、複数のシステムを運用していても、システム障害の検知および調査を効率よく行う方法をご紹介します。

【使用するツール】
JP1/Integrated Management 3 または システム管理 JP1 Cloud Service/System Management

1. システムで発生した障害を検知する

  1. JP1の統合オペレーション・ビューアーでは、ノード状態を表すパネルにエラーとなったノードの色が変わって表示されます。システムでエラーが発生したことを視覚的に把握できます。

    JP1の統合オペレーション・ビューアーでは、ノード状態を表すパネルにエラーとなったノードの色が変わって表示されます。システムでエラーが発生したことを視覚的に把握できます。

2. システム障害の原因を調査する

  1. システムの構成要素を表示するツリーエリアで、問題が発生しているエージェントを選択すると、ダッシュボードに該当エージェントに関する情報が表示されます。

    システムの構成要素を表示するツリーエリアで、問題が発生しているエージェントを選択すると、ダッシュボードに該当エージェントに関する情報が表示されます。

  2. アラート情報パネルで異常が発生している場合には、アラートパネルをクリックして、インスタンス一覧で異常が発生した「ノード名」、「アラート名」や「しきい値超過時刻」を確認できます。

    アラート情報パネルで異常が発生している場合には、アラートパネルをクリックして、インスタンス一覧で異常が発生した「ノード名」、「アラート名」や「しきい値超過時刻」を確認できます。

  3. アラート発生時刻前後でリソースが高騰しているかどうかは、リソース情報のグラフで確認できます。トレンドグラフの右上のボタンをクリックし「比較」を選択すると、次の図に示すように過去(1週間前など)のグラフと並べて比較できるので、変化があったところに着目して事象発生に影響を与えた原因を探っていくことができます。

    アラート発生時刻前後でリソースが高騰しているかどうかは、リソース情報のグラフで確認できます。トレンドグラフの右上をクリックし「比較」を選択すると、次の図に示すように過去(1週間前など)のグラフと並べて比較できるので、変化があったところに着目して事象発生に影響を与えた原因を探っていくことができます。

このように、JP1の統合オペレーション・ビューアーでは複数システム全体を対象にして、発生した障害を視覚的に素早く把握でき、問題が発生したエージェントの調査も効率よく進めることができます。

最後までお読みいただきありがとうございました。

記載の仕様は、改良などのため予告なく変更になることがあります。