Fluidは、Kubernetesネイティブの分散データセットオーケストレーションおよびアクセラレーションエンジンであり、クラウドネイティブのシナリオでビッグデータアプリケーションやAIアプリケーションなどのデータ集約型アプリケーションに対応します。 Fluidは、アプリケーション指向のデータセット抽象化、スケーラブルなデータエンジンプラグイン、自動データ操作、データアクセラレーション、およびランタイムプラットフォームに依存しません。 数回クリックするだけでPrometheusのManaged Service for PrometheusのPrometheusインスタンスにFluidモニタリングコンポーネントをインストールし、PrometheusのManaged Serviceが提供する標準ダッシュボードを使用してFluidをモニタリングできます。 このトピックでは、Prometheus for Fluidのマネージドサービスを有効にする方法について説明します。
前提条件
Container Service for Kubernetes (ACK) クラスターまたはACK Serverlessクラスターに対して、Managed Service for Prometheusが有効になっています。 詳細については、「Prometheusのマネージドサービス」をご参照ください。
クラウドネイティブAIスイートがデプロイされ、Fluidデータアクセラレーションが有効になります。 詳細については、「クラウドネイティブAIスイートのデプロイ」をご参照ください。
Fluidコントロールプレーンダッシュボードのすべての機能を使用するには、ack-fluid 0.9.7以降がクラスターにインストールされていることを確認します。
Fluid JindoRuntimeキャッシュシステムダッシュボードのすべての機能を使用するには、ack-fluid 1.0.11以降がインストールされていることを確認します。
制限事項
キャッシュシステムダッシュボードは、JindoRuntime型 (JindoCacheエンジン) のキャッシュ実行時コンポーネントのみをサポートします。
ステップ1: 流体とARMSの統合
ログインして
ARMSコンソールを使用します。左側のナビゲーションウィンドウで、[統合センター] をクリックします。 AIセクションで、Fluidカードをクリックします。
Fluidページの [Kubernetesクラスターの選択] セクションで、目的のクラスターを選択します。 Fluidが既にインストールされていることがページに表示されている場合は、このセクションの手順をスキップします。
[設定情報] セクションでパラメーターを設定し、[OK] をクリックします。
パラメーター
説明
名前 (不要)
Fluidエクスポーターの一意の名前。 あなたはそれを空のままにすることができます。
メトリック収集間隔 (秒)
サービスでモニタリングデータを収集する間隔。
統合されたコンポーネントは、ARMSコンソールの [統合管理] ページで確認できます。
ログインして
ARMSコンソールを使用します。左側のナビゲーションウィンドウで、[統合管理] をクリックします。 [統合アドオン] タブで、[Fluid] カードをクリックします。
[環境] タブで、[操作] 列の [詳細の表示] をクリックして、クラスター内のFluidコンポーネントとアラートルールを表示します。
ステップ2: Fluidダッシュボードを表示する
ACKコンソールからFluidダッシュボードを表示する (推奨)
ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、FluidコンポーネントがインストールされているACKクラスターまたはACKサーバーレスクラスターをクリックします。 左側のウィンドウで、 を選択します。
Prometheusモニタリングページで、 を選択し、Fluid control Planeのモニタリングデータを表示します。
Fluid制御プレーンダッシュボードでは、コンポーネントのステータス、Fluidコントローラーの処理時間、Fluid webhookのQPS、リクエスト処理の待ち時間、各コンポーネントのリソース使用量など、Fluid制御プレーンコンポーネントに関する詳細情報を表示できます。 詳細については、「パネル」をご参照ください。
[コンポーネントの実行ステータス] セクションでは、[実行中] 状態にあるFluid制御プレーンポッドの数、再起動の回数、および各再起動の時間を表示できます。
[Fluid Controllerの詳細インジケータ] セクションでは、Fluidコントローラーがビジーであるかどうかを確認し、処理の失敗とKubernetes APIリクエストに関する情報を表示できます。
[Fluid Webhookの詳細インジケータ] セクションに、Fluid webhookのリソース使用量、処理されたリクエストの数、およびリクエスト処理のレイテンシが表示されます。
[リソース使用量] セクションでは、各Fluid制御プレーンコンポーネントのリソース使用量、ネットワーク送信レート、およびネットワーク受信レートを表示できます。
Prometheusモニタリングページで、 を選択して、Fluid JindoRuntimeキャッシュシステムのモニタリングデータを表示します。
Fluid JindoRuntimeキャッシュシステムダッシュボードでは、Fluidデータセットの概要、キャッシュシステムのメトリック、およびFUSEクライアントのメトリックを表示します。 詳細については、「パネル」をご参照ください。
[データセットの概要] セクションでは、マスター、ワーカー、およびFUSEコンポーネントの正常なポッドの数、各ポッドのリソース構成など、Fluidデータセットの概要情報を表示できます。

[Cache System Metrics] セクションでは、現在のキャッシュ使用量、キャッシュヒット率、集計帯域幅、ファイルメタデータを処理するキャッシュシステムのQPSなど、選択したキャッシュシステムのメトリックを表示できます。

[FUSEメトリクス (経由CSI)] セクションでは、Fluid CSIプラグインおよびFUSEポッドを介してマウントされるFUSEクライアントのメトリクスを表示できます。これには、各FUSEポッドの入出力、メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSが含まれます。

[FUSEメトリクス (Sidecar経由)] セクションでは、Fluid FUSEサイドカーを介してマウントされるFUSEクライアントのメトリクス (メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSなど) を表示できます。

ARMSコンソールからFluidダッシュボードを表示する
ログインして
ARMSコンソールを使用します。左側のナビゲーションウィンドウで、[統合管理] をクリックします。 [クエリダッシュボード] タブをクリックし、コンポーネントのドロップダウンリストから [流体] を選択し、ページ下部の [流体制御プレーン] をします。 ダッシュボードでFluidコントロールプレーンのモニタリングデータを表示できます。
Fluidダッシュボードでは、コンポーネントのステータス、Fluidコントローラーの処理時間、Fluid webhookのQPS、リクエスト処理の待ち時間、各コンポーネントのリソース使用量など、Fluid制御プレーンコンポーネントに関する詳細情報を表示できます。 詳細については、「パネル」をご参照ください。
[コンポーネントの実行ステータス] セクションでは、[実行中] 状態にあるFluid制御プレーンポッドの数、再起動の回数、および各再起動の時間を表示できます。
[Fluid Controllerの詳細インジケータ] セクションでは、Fluidコントローラーがビジーであるかどうかを確認し、処理の失敗とKubernetes APIリクエストに関する情報を表示できます。
[Fluid Webhookの詳細インジケータ] セクションに、Fluid webhookのリソース使用量、処理されたリクエストの数、およびリクエスト処理のレイテンシが表示されます。
[リソース使用量] セクションでは、各Fluid制御プレーンコンポーネントのリソース使用量、ネットワーク送信レート、およびネットワーク受信レートを表示できます。
左側のナビゲーションウィンドウで、[統合管理] をクリックします。 [クエリダッシュボード] タブをクリックし、コンポーネントのドロップダウンリストから [流体] をし、ページ下部の [流体JindoRuntimeダッシュボード] をクリックします。 ダッシュボードでFluid JindoRuntimeキャッシュシステムのモニタリングデータを表示できます。
[データセットの概要] セクションでは、マスター、ワーカー、およびFUSEコンポーネントの正常なポッドの数、各ポッドのリソース構成など、Fluidデータセットの概要情報を表示できます。
[Cache System Metrics] セクションでは、現在のキャッシュ使用量、キャッシュヒット率、集計帯域幅、ファイルメタデータを処理するキャッシュシステムのQPSなど、選択したキャッシュシステムのメトリックを表示できます。
[FUSEメトリクス (経由CSI)] セクションでは、Fluid CSIプラグインおよびFUSEポッドを介してマウントされるFUSEクライアントのメトリクスを表示できます。これには、各FUSEポッドの入出力、メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSが含まれます。
[FUSEメトリクス (Sidecar経由)] セクションでは、Fluid FUSEサイドカーを介してマウントされるFUSEクライアントのメトリクス (メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSなど) を表示できます。
メトリクスの概要
次の表に、Fluid制御プレーンコンポーネントのモニタリングメトリックを示します。
メトリクス | タイプ | 説明 |
dataset_ufs_total_size | ゲージ | 現在のクラスター内の既存のDatasetオブジェクトにマウントされているデータセットのサイズ。 |
dataset_ufs_file_num | ゲージ | 現在のクラスター内の既存のDatasetオブジェクトにマウントされているデータセットの数。 |
runtime_setup_error_total | Counter | コントローラーの調整時にランタイムの起動に失敗した回数。 |
runtime_sync_healthcheck_error_total | Counter | コントローラーの調整時に発生するランタイムヘルスチェックの失敗の数。 |
controller_runtime_reconcile_time_seconds_bucket | ヒストグラム | 調整プロセスの期間。 |
controller_runtime_reconcile_errors_total | Counter | 和解の失敗の数。 |
controller_runtime_reconcile_total | Counter | 成功した和解の数。 |
controller_runtime_max_concurrent_reconciles | ゲージ | コントローラーでサポートされている同時調整の最大数。 |
controller_runtime_active_workers | ゲージ | コントローラのアクティブな調整の数。 |
workqueue_adds_total | Counter | コントローラワークキューによって処理された追加イベントの数。 |
workqueue_depth | ゲージ | コントローラーのワークキューの長さ。 |
workqueue_queue_duration_seconds_bucket | ヒストグラム | 保留中のオブジェクトがコントローラのワークキューで待機している時間。 |
workqueue_work_duration_seconds_bucket | ヒストグラム | コントローラによって完了されたタスクの期間の分布。 |
workqueue_unfinished_work_seconds | ゲージ | コントローラワークキューで処理されているすべてのタスクの合計時間。 |
workqueue_longest_running_processor_seconds | ゲージ | コントローラーがタスクの処理に費やした最長時間。 |
rest_client_requests_total | Counter | ステータスコード、メソッド、およびホストに基づいて計算されたHTTPリクエストの数。 |
rest_client_request_duration_seconds_bucket | ヒストグラム | 動詞とURLに基づいて計算されたHTTP応答レイテンシ。 |
controller_runtime_webhook_requests_in_flight | ゲージ | webhookによって処理されているリクエストの数。 |
controller_runtime_webhook_requests_total | Counter | webhookによって処理されるリクエストの総数。 |
controller_runtime_webhook_latency_seconds_bucket | ヒストグラム | webhookのリクエスト処理レイテンシ。 |
process_cpu_seconds_total | Counter | CPU稼働時間。 |
process_resident_memory_bytes | ゲージ | 使用されたメモリの量。 |
次の表に、Fluid JindoRuntimeキャッシュシステムのダッシュボードに表示されるJindoCacheサーバーのメトリックを示します。
メトリクス | タイプ | 説明 |
jindocache_server_total_stsnodes_num | ゲージ | 現在の分散キャッシュシステム内のワーカーコンポーネントのアライブレプリカの数。 |
jindocache_server_total_disk_cap | ゲージ | 分散キャッシュシステムのディスクキャッシュ (tmpfsなどのRAMディスクを含む) の最大サイズ。 |
jindocache_server_total_used_disk_cap | ゲージ | 分散キャッシュシステムで使用されるディスクキャッシュ (tmpfsなどのRAMディスクを含む) の量。 |
jindocache_server_total_mem_cap | ゲージ | 分散キャッシュシステムのRAMキャッシュの最大サイズ。 |
jindocache_server_total_used_mem_cap | ゲージ | 分散キャッシュシステムで使用されるRAMキャッシュの量。 |
jindocache_server_total_used_rocksdb_cap | ゲージ | 分散キャッシュシステムで使用されるRocksDB。 |
jindocache_server_backend_read_bytes_total | ゲージ | 基になるストレージシステムから読み取られたデータの合計量。 単位はバイトです。 データがJindoCacheに見つからない場合、データは基になるストレージシステムから読み取られます。 |
jindocache_server_backend_read_time_total | ゲージ | 基になるストレージシステムからデータを読み取る期間。 単位:マイクロ秒。 |
jindocache_server_backend_readop_num_total | ゲージ | 基になるストレージシステムからデータが読み取られた合計回数。これは、JindoCache内のブロックの数に等しい。 |
jindocache_server_backend_read_bytes_time_total_window | ゲージ | 基になるストレージシステムから1分以内にデータを読み取る時間。 単位:マイクロ秒。 |
jindocache_server_backend_read_bytes_total_window | ゲージ | 基になるストレージシステムから1分以内に読み取られたデータの合計量。 単位はバイトです。 |
jindocache_server_remote_read_bytes_total | ゲージ | 同じクラスター内のリモートキャッシュヒットを介して読み取られたデータの合計量。 単位はバイトです。 リモートキャッシュヒットは、要求されたデータがJindoCacheで見つかったが、キャッシュされたデータとアプリケーションが異なるノードに存在する場合に発生します。 |
jindocache_server_remote_read_time_total | ゲージ | 同じクラスター内のリモートキャッシュヒットの合計時間。 単位:マイクロ秒。 |
jindocache_server_remote_readop_num_total | ゲージ | 同じクラスター内のリモートキャッシュヒット数。 |
jindocache_server_remote_read_bytes_time_total_window | ゲージ | リモートキャッシュの合計時間は1分以内にヒットします。 単位:マイクロ秒。 |
jindocache_server_remote_read_bytes_total_window | ゲージ | リモートキャッシュを介して読み取られたデータの合計量が1分以内にヒットします。 単位はバイトです。 |
jindocache_server_local_read_bytes_total | ゲージ | 同じクラスター内のローカルキャッシュヒットを介して読み取られたデータの合計量。 単位はバイトです。 ローカルキャッシュヒットは、要求されたデータがJindoCacheで検出され、キャッシュされたデータとアプリケーションが同じノードに存在する場合に発生します。 |
jindocache_server_local_read_time_total | ゲージ | 同じクラスター内のローカルキャッシュヒットの合計期間。 単位:マイクロ秒。 |
jindocache_server_local_readop_num_total | ゲージ | 同じクラスター内のローカルキャッシュヒットの総数。 |
jindocache_server_local_read_bytes_time_total_window | ゲージ | 1分以内のローカルキャッシュヒットの合計時間。 単位:マイクロ秒。 |
jindocache_server_local_read_bytes_total_window | ゲージ | ローカルキャッシュから読み取られたデータの合計量が1分以内にヒットします。 単位はバイトです。 |
jindocache_server_ns_filelet_op_count_total | ゲージ | getAttrおよびlistStatus操作を含む、JindoCacheマスターコンポーネント側で実行されたファイルメタデータ操作の総数。 |
jindocache_server_ns_filelet_op_time_total | ゲージ | getAttrおよびlistStatus操作を含む、JindoCacheマスターコンポーネント側で実行されたファイルメタデータ操作の合計時間。 |
jindocache_server_ns_get_attr_op_total | ゲージ | JindoCacheマスターコンポーネント側で実行されたgetAttr操作の数。 |
jindocache_server_ns_get_attr_time_total | ゲージ | JindoCacheマスターコンポーネント側で実行されるgetAttr操作の期間。 |
jindocache_server_ns_get_attr_fallback_op_total | ゲージ | JindoCacheマスターコンポーネントが基になるストレージシステムからファイルメタデータを読み取る回数。 |
jindocache_server_ns_list_status_op_total | ゲージ | JindoCacheマスターコンポーネント側で実行されたlistStatus操作の数。 |
jindocache_server_ns_list_status_time_total | ゲージ | JindoCacheマスターコンポーネント側で実行されるlistStatus操作の期間。 |
jindocache_server_ns_list_status_fallback_op_total | ゲージ | JindoCacheマスターコンポーネントが基になるストレージシステムからファイルリストを読み取る回数。 |
jindocache_server_dist_get_attr_op_num_total | ゲージ | JindoCacheクライアント側で実行されたgetAttr操作の数。 |
jindocache_server_dist_get_attr_time_total | ゲージ | JindoCacheクライアント側で実行されるgetAttr操作の期間。 |
jindocache_server_dist_list_dir_op_num_total | ゲージ | JindoCacheクライアント側で実行されたlistStatus操作の数。 |
jindocache_server_dist_list_dir_time_total | ゲージ | JindoCacheクライアント側で実行されるlistStatus操作の期間。 |
次の表に、Fluid JindoRuntimeダッシュボードに表示されるJindoCache FUSEクライアントのメトリックを示します。
メトリクス | タイプ | 説明 |
jindo_fuse_open_count | ゲージ | Jindo FUSEクライアントによって実行されたオープン操作の数。 |
jindo_fuse_open_latency | ゲージ | Jindo FUSEクライアントによって実行されるオープン操作のP50レイテンシ。 |
jindo_fuse_open_latency_80 | ゲージ | Jindo FUSEクライアントによって実行されるオープン操作のP80レイテンシ。 |
jindo_fuse_open_latency_90 | ゲージ | Jindo FUSEクライアントによって実行されるオープン操作のP90レイテンシ。 |
jindo_fuse_open_latency_99 | ゲージ | Jindo FUSEクライアントによって実行されるオープン操作のP99レイテンシ。 |
jindo_fuse_open_latency_999 | ゲージ | Jindo FUSEクライアントによって実行されるオープン操作のP99.9レイテンシ。 |
jindo_fuse_open_latency_9999 | ゲージ | Jindo FUSEクライアントによって実行されるオープン操作のP99.99レイテンシ。 |
jindo_fuse_getattr_count | ゲージ | Jindo FUSEクライアントによって実行されたgetAttr操作の数。 |
jindo_fuse_getattr_latency | ゲージ | Jindo FUSEクライアントによって実行されるgetAttr操作のP50レイテンシ。 |
jindo_fuse_getattr_latency_80 | ゲージ | Jindo FUSEクライアントによって実行されるgetAttr操作のP80レイテンシ。 |
jindo_fuse_getattr_latency_90 | ゲージ | Jindo FUSEクライアントによって実行されるgetAttr操作のP90レイテンシ。 |
jindo_fuse_getattr_latency_99 | ゲージ | Jindo FUSEクライアントによって実行されるgetAttr操作のP99レイテンシ。 |
jindo_fuse_getattr_latency_999 | ゲージ | Jindo FUSEクライアントによって実行されるgetAttr操作のP99.9レイテンシ。 |
jindo_fuse_getattr_latency_9999 | ゲージ | Jindo FUSEクライアントによって実行されるgetAttr操作のP99.99レイテンシ。 |
jindo_fuse_readdir_count | ゲージ | Jindo FUSEクライアントによって実行されたreadDir操作の数。 |
jindo_fuse_readdir_latency | ゲージ | Jindo FUSEクライアントによって実行されるreadDir操作のP50レイテンシ。 |
jindo_fuse_readdir_latency_80 | ゲージ | Jindo FUSEクライアントによって実行されるreadDir操作のP80レイテンシ。 |
jindo_fuse_readdir_latency_90 | ゲージ | Jindo FUSEクライアントによって実行されるreadDir操作のP90レイテンシ。 |
jindo_fuse_readdir_latency_99 | ゲージ | Jindo FUSEクライアントによって実行されるreadDir操作のP99レイテンシ。 |
jindo_fuse_readdir_latency_999 | ゲージ | Jindo FUSEクライアントによって実行されるreadDir操作のP99.9レイテンシ。 |
jindo_fuse_readdir_latency_9999 | ゲージ | Jindo FUSEクライアントによって実行されるreadDir操作のP99.99レイテンシ。 |
jindo_fuse_read_count | ゲージ | Jindo FUSEクライアントによって実行された読み取り操作の数。 |
jindo_fuse_read_latency | ゲージ | Jindo FUSEクライアントによって実行される読み取り操作のP50レイテンシ。 |
jindo_fuse_read_latency_80 | ゲージ | Jindo FUSEクライアントによって実行される読み取り操作のP80レイテンシ。 |
jindo_fuse_read_latency_90 | ゲージ | Jindo FUSEクライアントによって実行される読み取り操作のP90レイテンシ。 |
jindo_fuse_read_latency_99 | ゲージ | Jindo FUSEクライアントによって実行される読み取り操作のP99レイテンシ。 |
jindo_fuse_read_latency_999 | ゲージ | Jindo FUSEクライアントによって実行される読み取り操作のP99.9レイテンシ。 |
jindo_fuse_read_latency_9999 | ゲージ | Jindo FUSEクライアントによって実行される読み取り操作のP99.99レイテンシ。 |
jindo_fuse_write_count | ゲージ | Jindo FUSEクライアントによって実行された書き込み操作の数。 |
jindo_fuse_write_latency | ゲージ | Jindo FUSEクライアントによって実行される書き込み操作のP50レイテンシ。 |
jindo_fuse_write_latency_80 | ゲージ | Jindo FUSEクライアントによって実行される書き込み操作のP80レイテンシ。 |
jindo_fuse_write_latency_90 | ゲージ | Jindo FUSEクライアントによって実行される書き込み操作のP90レイテンシ。 |
jindo_fuse_write_latency_99 | ゲージ | Jindo FUSEクライアントによって実行される書き込み操作のP99レイテンシ。 |
jindo_fuse_write_latency_999 | ゲージ | Jindo FUSEクライアントによって実行される書き込み操作のP99.9レイテンシ。 |
jindo_fuse_write_latency_9999 | ゲージ | Jindo FUSEクライアントによって実行される書き込み操作のP99.99レイテンシ。 |