ディスクが配置されているディレクトリからファイルを読み書きしたり、ディスクへのI/Oアクセスを実行したりすると、ディスクがスタックしたり、数秒、数十秒、さらには数分間応答しなかったりする場合があります。 問題が発生した場合は、I/Oハング診断とディスクのトラブルシューティングを実行することを推奨します。
前提条件
OSの監視と診断はパブリックプレビュー中です。 あなたはしなければなりません ホワイトリストへの追加を申請するには、チケットを起票してください。
背景情報
I/Oハングの説明と影響
I/Oパスは、リソースの保留のためにハングする可能性があります。 ビジネスの安定性の観点から、I/Oハングは、I/Oアクセスを必要とし、関連するI/Oパスが復元されるまで外部サービスを提供できないビジネスプロセスの長期的なブロックを引き起こす可能性があります。 システムの安定性の観点から、I/Oハングにより、多数のプロセスが待機状態に入る可能性があります。 その結果、次の問題が発生する可能性があります。システムの負荷が高いか、ハングアップしています。 シェルコマンドは実行できません。 サーバーがログオンできないため、システムが再起動されます。
I/Oハング診断の目的
I/Oハング診断を使用して、現在のシステムでI/Oハングを検出し、ディスクまたはオペレーティングシステムで例外が発生したかどうかを判断し、さらなる根本原因分析のガイダンスを提供できます。
I/Oハング診断の利点
I/Oハング診断の結果は正確で直感的です。 カーネルI/Oサブシステムの知識がなくても、診断を始めることができます。
I/Oハング診断は、システムでI/Oハングが発生しているかどうかを検出し、問題の区切りを実行します。 診断により、トラブルシューティングの範囲がさらに狭くなり、問題の原因が特定のプロセスに絞り込まれ、根本原因分析に役立ついくつかの重要なデータ指標が提供されます。
制限事項
診断センターは、一度に最大5つのインスタンスの診断をサポートします。
ステップ1: I/Oモニタリングデータの表示
前提条件: ホストでSysOMプラグインが有効になっています。 詳細については、「SysOMプラグインの有効化」をご参照ください。
I/Oモニタリングを実行してI/Oハングを特定し、I/Oハング診断を実行します。
CloudMonitorコンソールにログインします。v
左側のナビゲーションウィンドウで、
を選択します。[モニタリングセンター] ページで、ホストを選択し、[I/Oモニタリング] タブをクリックします。 次に、sysom_IOMonDisks_iohangCnt_exceptionおよびsysom_IOMonDisks_util_iostatIndicatorメトリックのモニタリングチャートを表示します。
次の場合にI/Oハングが発生します。
sysom_IOMonDisks_iohangCnt_exceptionの値が1より大きい。
sysom_IOMonDisks_util_iostatIndicatorは、I/Oアクセスが実行されていない間、100% にとどまります。
ステップ2: 診断の開始
I/Oハング診断を開始し、診断結果を表示して問題を特定します。
左側のナビゲーションウィンドウで、
を選択します。[診断センター] ページで、[I/O診断] タブをクリックし、[IO HANG診断] タブをクリックし、[診断の開始] をクリックします。
[IO HANG診断] ダイアログボックスで、診断するインスタンスを選択します。 他のパラメーターのデフォルト設定を保持します。
説明インスタンスに対してSysOMプラグインが有効になっていない場合、CloudMonitorは自動的にインスタンスのSysOMプラグインをインストールし、診断を実行します。
[OK] をクリックします。
診断結果を表示します。
診断タスクの診断ステータスが診断タスクの実行タイムアウトまたは失敗した場合、[操作] 列の [失敗の理由を表示] をクリックします。
診断タスクの診断ステータスが診断タスクの実行に成功した場合、[操作] 列の [診断結果の表示] をクリックします。
[IO HANGの概要] セクションで、[チェック結果] に [正常] が表示され、他の2つのパラメーターに0が表示された場合、I/Oハングは発生しません。
[IO HANGの概要] セクションで、[チェック結果] に [異常] が表示され、他の2つのパラメーターに0以外の値が表示されると、I/Oハングが発生します。
次の表に、IO HANGの概要セクションのパラメーターを示します。
パラメーター
説明
数のOSハング
I/Oの数はオペレーティングシステムでハングします。 例えば、値9は、9つのI/Oハングがオペレーティングシステム上で発生することを示す。
ディスクハンの数
ディスクにハングするI/Oの数。 たとえば、値1540は、ディスク上で1,540 I/Oハングが発生したことを示します。
説明I/Oハング診断は、問題の区切りを実行し、システムでI/Oハングが発生しているかどうかを検出します。 I/Oハングが存在する場合は、この機能を使用して最初に問題の区切りを実行し、ディスクまたはオペレーティングシステムで例外が発生したかどうかを判断する必要があります。 この機能は、根本原因分析に役立ついくつかの重要なデータ指標も提供します。
[ディスク数] の値が大きい場合、ディスクで例外が発生します。
Number of OS HANGの値が大きい場合、オペレーティングシステムで例外が発生します。
[TOP 10 IOの詳細] セクションには、最も長い時間の上位10個のI/Oハングの詳細のみが表示されます。 次の表に、各I/Oハングのパラメーターを示します。
パラメーター
説明
comm
プロセス名。
abnormal
例外が発生する場所。
file
ファイル名。
iostate
I/Oステータス。
cpu
I/Oハングが発生したホストのCPU番号。
ピッド
プロセスID。
time
I/Oハングが検出された時点。
セクター
セクタID。
datalen
データ量。
iotype
I/Oタイプ。