このトピックでは、Fluid制御プレーンダッシュボードとFluid JindoRuntimeキャッシュダッシュボードの変数とパネルについて説明します。 ダッシュボード変数は、モニタリング期間、データセットの名前空間および名前など、Fluid observabilityメトリクスにさまざまなディメンションを提供します。 パネルは、Fluidコンポーネントの健全性と性能を理解するのに役立ちます。 ダッシュボードを使用して、可能性のある問題をできるだけ早い機会に見つけて解決し、特定のビジネスシナリオでキャッシュシステム内の潜在的な最適化項目を特定できます。
前提条件
PrometheusのManaged Serviceは、Fluidコンポーネントに対して有効になっています。 詳細については、「手順2: Fluidダッシュボードの表示」をご参照ください。
流体制御面ダッシュボード
ダッシュボード変数
Fluidダッシュボードのパネルに表示されるモニタリングデータは、Fluidダッシュボードの変数の値によって異なります。 ビジネス要件に基づいて変数の値を変更できます。 たとえば、Runtime変数の値をAlluxioRuntimeからJindoRuntimeに変更すると、ダッシュボード内のすべての関連パネルがJindoRuntimeに関連するデータを表示するように切り替わります。
変数 | 有効値 | 説明 |
interval | 1m、5m、10m、30m、1h、および6h | 監視サイクルの期間。 |
quantile | 0.5、0.75、0.90、0.95、0.99 | パネルがメトリックを視覚化するときに特定のパネルによって使用される分位数。 例えば、0.90の値はP90を示す。 |
ランタイム |
| Fluidで使用されるランタイムのタイプ。 この変数の値を変更すると、すべてのランタイム関連パネルに変更が適用されます。
|
パネル
パネルグループ | パネル | 説明 |
コンポーネントの実行ステータス | データセットコントローラー対応レプリカ | クラスター内で実行状態にあるデータセットコントローラポッドの数。 |
Datasetコントローラの再起動履歴 | データセットコントローラポッドがクラスターで再起動された回数。 | |
ランタイムコントローラーの準備完了コピー数 | クラスター内で実行状態にあるランタイムコントローラポッドの数。 | |
履歴ランタイムコントローラーの再起動時間 | ランタイムコントローラーポッドがクラスターで再起動した回数。 | |
Fluid Webhook対応コピー | クラスター内で実行状態にあるFluid webhookポッドの数。 | |
過去の流体Webhookの再起動数 | クラスターでFluid webhookポッドが再起動された回数。 | |
Fluid CSIプラグイン対応コピー | クラスター内で実行状態にあるFluid CSIプラグインポッドの数。 | |
Fluid CSIプラグインの履歴再起動 | Fluid CSIプラグインポッドがクラスタで再起動した回数。 | |
流体コンポーネントの再起動 | 2分の監視サイクル内で最も頻繁に再起動した上位5つの流体コンポーネント。 | |
流体コントローラ詳細インジケータ | Runtime Controllerの処理時間 | ランタイムコントローラが監視サイクル内でランタイムリソースを処理するために費やす時間。 パネルはパーセンタイル値を表示する。 |
ランタイムコントローラの処理失敗数 | ランタイムコントローラーがランタイムリソースを処理するときに発生する障害の種類と数。 次のタイプの障害が表示されます。
| |
ランタイムコントローラーのスレッド数 | ランタイムコントローラーの現在のアクティブなスレッド数と、ランタイムコントローラーでサポートされているスレッドの最大数。 | |
DataLoadコントローラのスレッド | DataLoadコントローラーの現在のアクティブなスレッド数と、DataLoadコントローラーでサポートされているスレッドの最大数。 | |
コントローラのキュー長 | クラスター内の各Fluid controllerワークキューの長さ。 | |
Kubernetes APIリクエストの総数 | モニタリングサイクル内にFluidコントローラポッドからKubernetes APIサーバーに送信されたリクエストの総数。 | |
Runtime Controller Kubernetes APIリクエスト | 監視サイクル内にランタイムコントローラーからKubernetes APIサーバーに送信されたリクエストの数。 リクエストは、返されたステータスコードによって分類され、表示されます。 | |
コントローラの未完了処理によって消費される合計時間 | 各Fluidコントローラが進行中のタスクに費やす時間の合計。 | |
Fluid Webhook詳細インジケータ | Fluid WebhookポッドCPU使用量 | モニタリングサイクル内の各Fluid webhookポッドのCPU使用率。 |
Fluid Webhookポッドメモリ使用量 | モニタリングサイクル内の各Fluid webhookポッドのメモリ使用量。 | |
Fluid Webhookで処理されたリクエストの総数 | モニタリングサイクル内にFluid webhookによって処理されたリクエストの総数。 | |
各Fluid Webhookポッドで処理されたリクエストの数 | モニタリングサイクル内に各Fluid webhookポッドによって処理されたリクエストの数。 | |
Fluid Webhookリクエスト処理遅延 | モニタリングサイクル内のFluid webhookのリクエスト処理レイテンシ。 レイテンシはパーセンタイル値です。 | |
各Fluid Webhookポッドのリクエスト処理遅延 | モニタリングサイクル内の各Fluid webhookポッドのリクエスト処理レイテンシ。 レイテンシはパーセンタイル値です。 | |
リソース使用量 | CPU 使用率 | モニタリングサイクル内の各FluidコントローラポッドのCPU使用率。 |
メモリ使用量 | モニタリングサイクル内の各Fluidコントローラポッドのメモリ使用量。 | |
ポッドあたりのネットワーク送信レート | 監視サイクル内の各流体コントローラポッドのネットワーク送信レート。 | |
ポッドごとのネットワーク受信レート | ネットワークは、監視サイクル内の各流体コントローラポッドのレートを受信する。 |
Fluid JindoRuntimeキャッシュダッシュボード
ダッシュボード変数
Fluid JindoRuntimeキャッシュダッシュボードを使用すると、ダッシュボード変数に基づいて特定のデータセットを選択し、そのデータセットに関連付けられているJindoRuntimeキャッシュシステムの関連メトリックを表示できます。
変数 | 説明 |
名前空間 | クラスターに存在する名前空間。 |
fluid_dataset | クラスターに存在するFluidデータセットの名前。 |
パネル
パネルグループ | パネル | 説明 |
データセットの概要 | レディポッドNum
| キャッシュシステムのmaster、worker、およびFUSEコンポーネントを含む、選択したキャッシュシステムの各コンポーネントのすぐに使用できるポッドの数。 |
ポッドの概要
| 選択したキャッシュシステムの各コンポーネントのポッドに関する基本情報。過去1時間の再起動回数、CPUリソースの要求と制限、メモリリソースの要求と制限などがあります。 | |
キャッシュシステムメトリック
| キャッシュ容量使用率 (%)
| 選択したキャッシュシステムで使用されるキャッシュ容量の割合。 |
キャッシュ容量の使用状況
| 選択したキャッシュシステムの使用可能な最大キャッシュ容量と現在の容量使用量。 | |
1分あたりのキャッシュヒット率 | 選択したキャッシュシステムの1分あたりのデータアクセスキャッシュヒット率。 | |
1分あたりの読み取りバイト数 | キャッシュがヒットしたときのデータ読み取りの総数 (キャッシュヒット) とキャッシュがミスしたときのデータ読み取りの総数 (バックエンドから) を含む、計算キャッシュシステムによってカウントされた1分あたりのデータ読み取り数。 | |
キャッシュシステム集約帯域幅 | アプリケーションに対して選択されたキャッシュシステムによって提供される総帯域幅。 総帯域幅は、ワーカーポッドの各ネットワークインターフェイスコントローラーのアウトバウンドトラフィックの合計です。 ワーカーポッドがホストネットワークで実行されている場合、値が膨張する可能性があります。 キャッシュシステムの実際の総帯域幅データを取得するには、ワーカーポッドがコンテナネットワーク上で実行されていることを確認します。 | |
Cache WorkerポッドネットワークI/O | 選択したキャッシュシステムの各ワーカーポッドのネットワークI/Oステータス。 ワーカーポッドがホストネットワークで実行されている場合、値が膨張する可能性があります。 キャッシュシステムの実際の総帯域幅データを取得するには、ワーカーポッドがコンテナネットワーク上で実行されていることを確認します。 | |
キャッシュシステムのポッドメモリ使用量 | 選択したキャッシュシステムのmasterポッドとworkerポッドのメモリ使用量。 ワーカーポッドのプロセスメモリがキャッシュ媒体として使用される場合、各ワーカーコンポーネントが占有するキャッシュ容量は、ポッドメモリ使用量に含まれる。 | |
コアによるシステムポッドCPU使用量のキャッシュ | 選択したキャッシュシステムのmasterポッドとworkerポッドのCPU使用率。 | |
集約ファイル操作要求 | 選択したキャッシュシステムによってカウントされるファイルメタデータ操作の要求頻度。 GetAttrおよびReadDirメタデータ操作のリクエスト頻度のみが計算されます。 | |
FUSEメトリクス (CSI経由)
| FUSEネットワークI/O | 選択したキャッシュシステムの各FUSEポッドのネットワークI/Oステータス。 FUSEポッドがホストネットワーク上で実行されている場合、値が膨張する可能性があります。 キャッシュシステムの実際の総帯域幅データを取得するには、FUSEポッドがコンテナネットワーク上で実行されていることを確認します。 |
FUSEメモリ使用量 /制限 (%) | 選択したキャッシュシステムのメモリリソース制限に対する各FUSEポッドの現在のメモリ使用率の割合。 FUSEポッドにメモリ制限が指定されていない場合、値は空のままになります。 | |
FUSE CPUスロットル率 | 選択したキャッシュシステムの各FUSEポッドのCPUスロットリングの割合。 FUSEポッドにCPUリソース制限が指定されていない場合、値は空のままになります。 | |
秒あたりメタOps | 選択したキャッシュシステムの各FUSEポッドの1秒あたりのファイルメタデータ操作の頻度。 GetAttr、ReadDir、およびOpenメタデータ操作のリクエスト頻度のみがカウントされます。 | |
メタOps P99レイテンシ | 選択したキャッシュシステムの各FUSEポッドでのメタデータ操作のP99レイテンシ。 GetAttr、ReadDir、およびOpenメタデータ操作のリクエスト頻度のみがカウントされます。 | |
1秒あたりの読み取り /書き込みOps | 選択したキャッシュシステムの各FUSEポッドの1秒あたりのファイルの読み取りおよび書き込み操作の頻度。 | |
読み書きOps P99レイテンシ | 選択したキャッシュシステムの各FUSEポッドのファイル読み取りおよび書き込み操作のP99レイテンシ。 | |
FUSEメトリクス (サイドカー経由) | FUSEメモリ使用量 /制限 (%) | 選択したキャッシュシステムのメモリリソース制限に対する各FUSEサイドカーコンテナの現在のメモリ使用量の割合。 FUSEサイドカーコンテナのメモリリソース制限が指定されていない場合、値は空のままになります。 |
FUSE CPUスロットル率 | 選択したキャッシュシステムの各FUSEサイドカーコンテナのCPUスロットリングの割合。 FUSEサイドカーコンテナーのCPUリソース制限を指定しない場合、値は空のままになります。 | |
秒あたりメタOps | 選択したキャッシュシステムの各FUSEサイドカーコンテナに対してカウントされた1秒あたりのファイルメタデータ操作の頻度。 GetAttr、ReadDir、およびOpenメタデータ操作のリクエスト頻度のみがカウントされます。 | |
メタOps P99レイテンシ | 選択したキャッシュシステムの各FUSEサイドカーコンテナでのメタデータ操作のP99レイテンシ。 GetAttr、ReadDir、およびOpenメタデータ操作のリクエスト頻度のみがカウントされます。 | |
1秒あたりの読み取り /書き込みOps | 選択したキャッシュシステム内の各FUSEサイドカーコンテナによってカウントされる1秒あたりのファイル読み取りおよび書き込み操作の頻度。 | |
読み書きOps P99レイテンシ | 選択したキャッシュシステムのFUSEサイドカーコンテナごとにカウントされるファイルの読み取りおよび書き込み操作のP99レイテンシ。 |