すべてのプロダクト
Search
ドキュメントセンター

Elastic High Performance Computing:E-HPC クラスタのモニタリング情報を表示する

最終更新日:Apr 29, 2025

Elastic High Performance Computing (E-HPC) クラスタのモニタリング情報を表示できます。モニタリング情報は、計算ノード、ストレージシステム、およびジョブリソースの使用状況をリアルタイムで把握し、リソース割り当てとジョブスケジューリングを正確に最適化するのに役立ちます。事前に設定された時間範囲を選択するか、カスタムの時間範囲を指定して既存データをクエリできます。この機能は、クラスタが引き続き効率的に実行されるように、情報に基づいた調整と管理の決定を行うのに役立ちます。このトピックでは、E-HPC クラスタのモニタリング情報を表示する方法について説明します。

前提条件

  • クラスタは以下の条件を満たしている必要があります。

    • クラスタが [実行中] 状態である。

    • クラスタのデプロイメントモードが [パブリッククラウドクラスタ] である。

    • クラスタのスケジューラが Slurm または PBS である。

    • モニタリングコンポーネントがクラスタにインストールされている。

  • RAM ユーザーを使用する場合は、RAM ユーザーに E-HPC コンソールでモニタリング情報を表示する権限が付与されていることを確認してください。詳細については、「RAM ユーザーに権限を付与する」をご参照ください。

手順

  1. [クラスタの詳細] ページに移動します。

    1. E-HPC コンソール にログオンします。

    2. 上部ナビゲーションバーの左側で、リージョンを選択します。

    3. 左側のナビゲーションウィンドウで、[クラスタ] をクリックします。

    4. [クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。

  2. 左側のナビゲーションウィンドウで、[運用管理] > [モニタリング] を選択します。

  3. タブをクリックして、E-HPC クラスタのモニタリング情報を表示します。

    説明

    ノードモニタリング、ストレージモニタリング、またはジョブモニタリング情報を表示する場合は、クエリの時間範囲を指定できます。

    • 対応するボタンをクリックすると、過去 1 時間、4 時間、12 時間、または 1 日のモニタリング情報を表示できます。

    • カスタムの時間範囲を選択して、その時間範囲内に生成されたモニタリング情報をクエリすることもできます。開始時刻と終了時刻の間に設定できる最大間隔は 1 か月です。

    各タブで表示できるメトリックの詳細については、「メトリック」をご参照ください。

    image

メトリック

タブ

説明

[概要]

[計算ノードの合計数][共有ストレージ容量][ジョブの合計数][平均負荷] などの統計情報を表示できます。また、すべての計算ノードの [ステータス] とリソース使用量を表示することもできます。

次の表は、計算ノードの [スケジューリングステータス] について説明しています。

  • [アイドル]: ノード内のすべてのコアがアイドル状態です。この場合、ノードの計算能力は最大になります。ノードは新しいタスクまたはジョブを受け入れて、その計算能力を最大限に活用できます。

  • [実行中]: ノード内の一部のコアは使用されていますが、一部のコアはまだ使用可能であり、新しいジョブを受け入れることができます。

  • [割り当て済み]: ノード内のすべてのコアが使用されており、新しいジョブを受け入れることができません。新しいジョブを送信する必要がある場合は、コアが解放されるまでキューに入れられる可能性があります。

  • [オフライン]: ノードは計算またはタスク処理に参加しなくなり、新しいジョブを受け入れません。

[ノードモニタリング]

クラスタまたはキューでフィルタリングして、次の 6 つの統計情報を表示できます。

  • [CPU 使用率]

    クラスタ内の計算ノードの CPU 使用率。特定の期間内にプログラムによって占有された処理能力の合計割合を示します。高い使用率 (80% または 90% 以上) は一般にリソースの効率的な使用を意味しますが、長期的にはクラスタのパフォーマンス低下と応答時間の増加につながります。低い使用率 (0% から 30%) は、リソースが十分に活用されていないか、パフォーマンスボトルネックまたはジョブスケジューリングの問題が存在する可能性があることを示している可能性があります。

  • [メモリ使用量]

    クラスタ内の計算ノードのメモリ使用量。クラスタジョブのスムーズな実行を確実にするために、メモリ使用量を定期的に監視して、バッファオーバーフローによるジョブの失敗を防ぐことができます。必要に応じて、メモリ容量を増やすか、メモリ使用戦略を最適化することで、メモリ関連の問題を解決できます。

  • [システム負荷]

    計算ノードのワークロード。この情報は、クラスタのジョブ処理能力を評価するのに役立ちます。負荷とノード数の比率を監視する必要があります。過度に高い負荷は、リソースが不足していることを示しています。ノードを追加 (スケールアウト) するか、ワークフローを最適化することで、システム負荷を軽減できます。

  • [ディスク使用量]

    ディスク記憶容量の使用量。この情報は、ディスクの可用性を確保し、過度のディスク使用を防ぐのに役立ちます。たとえば、ディスク使用量が 100% に達すると、書き込み操作を実行できません。冗長データをクリアするか、ストレージ容量を拡張することで、ストレージの負荷に効果的に対処できます。この分析は、ディスク使用量の全体像を把握し、容量のクリーンアップまたはストレージの拡張が必要かどうかを判断するのに役立ちます。

  • [ディスクの読み取りと書き込み]

    ディスク読み取り速度は、1 秒あたりに読み取られるデータ量を示します。ディスク書き込み速度は、1 秒あたりに書き込まれるデータ量を示します。単位:KB/s。これらのメトリックは、クラスタのパフォーマンスを効果的に評価し、クラスタが計算タスクを高効率で処理することを保証するのに役立ちます。

  • [ネットワークトラフィック]

    仮想プライベートネットワーク (VPC) 経由で計算ノード間で転送されるデータ量。ネットワークトラフィックが最も高い期間に特に注意を払い、例外をタイムリーに検出します。たとえば、ネットワーク帯域幅が不十分だと、データ転送効率が低下します。

[ストレージモニタリング]

クラスタ内のさまざまなファイルシステムのストレージモニタリング情報を表示できます。これには、次の 6 つの統計情報が含まれます。

  • [ストレージ容量]

    クラスタに接続されている Apsara File Storage NAS (NAS) ファイルシステムのストレージ使用量。NAS ファイルシステムには、計算出力、一時ファイル、アプリケーションデータを格納できます。ストレージ容量の不足、パフォーマンスの低下、データの損失などの例外を防ぐために、監視とアラート、定期的なデータクレンジング、ストレージの拡張などの対策を講じることをお勧めします。

  • [ファイル]

    NAS ファイルシステム内のファイルの総数。このメトリックは、システムのヘルスステータスとメンテナンス要件を間接的に反映し、ストレージ管理効率を評価するのに役立ちます。ファイル数が多すぎると、管理の複雑さが増し、取得効率とパフォーマンスに影響することに注意してください。ファイル数が事前に設定されたしきい値を超える場合は、注意を払う必要があります。管理効率とシステムパフォーマンスを向上させるために、ストレージコンテンツを定期的に整理し、不要なファイルまたは冗長なファイルをクリアすることをお勧めします。

  • [IOPS]

    指定された期間内のファイルシステムの平均読み取りおよび書き込み IOPS。単位:リクエスト/秒。

  • [レイテンシ]

    指定された期間内のファイルシステムのミリ秒あたりの平均読み取りおよび書き込みレイテンシ。単位:ミリ秒。

  • [スループット]

    指定された期間内のファイルシステムの平均読み取りおよび書き込みスループット (1 秒あたりのバイト数)。単位:KiB。

  • [メタデータ QPS]

    指定された期間内のファイルシステムがメタデータを要求する平均回数 (1 秒あたり)。単位:リクエスト/秒。

ファイルシステムのストレージメトリックの詳細については、「パフォーマンスモニタリング」および「NAS ファイルシステムのパフォーマンスに関する FAQ」をご参照ください。

[ジョブモニタリング]

クラスタ、キュー、プロジェクト、またはユーザーでフィルタリングして、次の 6 つの統計情報を表示できます。

  • [ジョブ]

    クラスタで実行されているジョブの数。クラスタの負荷を評価するための重要なメトリックです。異常に多いジョブ数によるリソース競合を防ぐために、メトリックが使用可能なリソースと一致していることを確認してください。全体的なリソース使用効率を向上させるために、ジョブスケジューリングを最適化し、不要なジョブを削除することをお勧めします。

  • [キューに入れられたジョブに必要なコアの合計数]

    特定のタスクを完了するために必要な CPU コアの総数。必要な CPU コアの総数が使用可能な CPU コアの数よりも多い場合、キューに入れられたジョブの待機時間が長くなる可能性があります。このような問題を解決するには、クラスタの CPU コア数を増やすか、ジョブの優先順位を調整してリソース割り当てを最適化し、効率を向上させることができます。

  • [ジョブの待機時間]

    クラスタ内のキューに入れられたジョブの平均待機時間。このメトリックは、リソース競合の状況を反映しています。待機時間が長いと、特に異常な状況では、全体的な効率に影響します。待機時間が大幅に増加する場合は、優先度の高いジョブを最初に実行してリソース使用率を最適化できます。

  • [実行中のジョブで使用されているコアの合計数]

    実行中のジョブによって占有されている CPU コアの総数。このメトリックは、リソース使用率の監視に役立ちます。リソース使用率が過度に高くなることや低くなることを防ぐために、CPU コアが効果的に使用されていることを確認してください。全体的な効率を向上させるために、ジョブ構成を調整し、リソースを適切に割り当てることをお勧めします。

  • [ジョブ CPU 使用率]

    ジョブによって実際に使用された CPU コア数をジョブによって要求された CPU コア数で割った比率。ジョブ CPU 使用率が低い場合は、システムに例外が存在する可能性があります。たとえば、CPU 使用率が予想されるしきい値よりも低い場合があります。例外はシステムの全体的なパフォーマンスに影響を与え、リソースの浪費につながる可能性があります。システムパフォーマンスを向上させるために、ジョブと計算ワークロードをタイムリーに分析することをお勧めします。

  • ジョブメモリ使用量

    ジョブによって実際に使用されたメモリ量をジョブによって要求されたメモリ量で割った比率。過度のメモリ使用量によるバッファオーバーフローまたはメモリ不足を防ぐために、ジョブのメモリ使用量に注意してください。システムの安定性を維持するために、メモリ構成を最適化するか、ノードのスペックアップを行うことができます。