すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:Fluidコンポーネントに対するPrometheusのマネージドサービスの有効化

最終更新日:Nov 20, 2024

Fluidは、Kubernetesネイティブの分散データセットオーケストレーションおよびアクセラレーションエンジンであり、クラウドネイティブのシナリオでビッグデータアプリケーションやAIアプリケーションなどのデータ集約型アプリケーションに対応します。 Fluidは、アプリケーション指向のデータセット抽象化、スケーラブルなデータエンジンプラグイン、自動データ操作、データアクセラレーション、およびランタイムプラットフォームに依存しません。 数回クリックするだけでPrometheusのManaged Service for PrometheusのPrometheusインスタンスにFluidモニタリングコンポーネントをインストールし、PrometheusのManaged Serviceが提供する標準ダッシュボードを使用してFluidをモニタリングできます。 このトピックでは、Prometheus for Fluidのマネージドサービスを有効にする方法について説明します。

前提条件

  • Container Service for Kubernetes (ACK) クラスターまたはACK Serverlessクラスターに対して、Managed Service for Prometheusが有効になっています。 詳細については、「Prometheusのマネージドサービス」をご参照ください。

  • クラウドネイティブAIスイートがデプロイされ、Fluidデータアクセラレーションが有効になります。 詳細については、「クラウドネイティブAIスイートのデプロイ」をご参照ください。

    • Fluidコントロールプレーンダッシュボードのすべての機能を使用するには、ack-fluid 0.9.7以降がクラスターにインストールされていることを確認します。

    • Fluid JindoRuntimeキャッシュシステムダッシュボードのすべての機能を使用するには、ack-fluid 1.0.11以降がインストールされていることを確認します。

制限事項

キャッシュシステムダッシュボードは、JindoRuntime型 (JindoCacheエンジン) のキャッシュ実行時コンポーネントのみをサポートします。

ステップ1: 流体とARMSの統合

  1. ログインして

    ARMSコンソールを使用します。

  2. 左側のナビゲーションウィンドウで、[統合センター] をクリックします。 AIセクションで、Fluidカードをクリックします。

  3. Fluidページの [Kubernetesクラスターの選択] セクションで、目的のクラスターを選択します。 Fluidが既にインストールされていることがページに表示されている場合は、このセクションの手順をスキップします。

  4. [設定情報] セクションでパラメーターを設定し、[OK] をクリックします。

    パラメーター

    説明

    名前 (不要)

    Fluidエクスポーターの一意の名前。 あなたはそれを空のままにすることができます。

    メトリック収集間隔 (秒)

    サービスでモニタリングデータを収集する間隔。

  5. 統合されたコンポーネントは、ARMSコンソールの [統合管理] ページで確認できます。

    1. ログインして

      ARMSコンソールを使用します。

    2. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。 [統合アドオン] タブで、[Fluid] カードをクリックします。

    3. [環境] タブで、[操作] 列の [詳細の表示] をクリックして、クラスター内のFluidコンポーネントとアラートルールを表示します。

ステップ2: Fluidダッシュボードを表示する

ACKコンソールからFluidダッシュボードを表示する (推奨)

  1. ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、FluidコンポーネントがインストールされているACKクラスターまたはACKサーバーレスクラスターをクリックします。 左側のウィンドウで、[操作] > [Prometheusモニタリング] を選択します。

  3. Prometheusモニタリングページで、[その他] > [Fluid Control Plane] を選択し、Fluid control Planeのモニタリングデータを表示します。

    Fluid制御プレーンダッシュボードでは、コンポーネントのステータス、Fluidコントローラーの処理時間、Fluid webhookのQPS、リクエスト処理の待ち時間、各コンポーネントのリソース使用量など、Fluid制御プレーンコンポーネントに関する詳細情報を表示できます。 詳細については、「パネル」をご参照ください。

    • [コンポーネントの実行ステータス] セクションでは、[実行中] 状態にあるFluid制御プレーンポッドの数、再起動の回数、および各再起動の時間を表示できます。组件运行状态

    • [Fluid Controllerの詳細インジケータ] セクションでは、Fluidコントローラーがビジーであるかどうかを確認し、処理の失敗とKubernetes APIリクエストに関する情報を表示できます。控制器详细指标

    • [Fluid Webhookの詳細インジケータ] セクションに、Fluid webhookのリソース使用量、処理されたリクエストの数、およびリクエスト処理のレイテンシが表示されます。webhook详细指标

    • [リソース使用量] セクションでは、各Fluid制御プレーンコンポーネントのリソース使用量、ネットワーク送信レート、およびネットワーク受信レートを表示できます。资源使用

  4. Prometheusモニタリングページで、[その他] > [Fluid JindoRuntimeダッシュボード] を選択して、Fluid JindoRuntimeキャッシュシステムのモニタリングデータを表示します。

    Fluid JindoRuntimeキャッシュシステムダッシュボードでは、Fluidデータセットの概要、キャッシュシステムのメトリック、およびFUSEクライアントのメトリックを表示します。 詳細については、「パネル」をご参照ください。

    • [データセットの概要] セクションでは、マスター、ワーカー、およびFUSEコンポーネントの正常なポッドの数、各ポッドのリソース構成など、Fluidデータセットの概要情報を表示できます。

      image

    • [Cache System Metrics] セクションでは、現在のキャッシュ使用量、キャッシュヒット率、集計帯域幅、ファイルメタデータを処理するキャッシュシステムのQPSなど、選択したキャッシュシステムのメトリックを表示できます。

      image

    • [FUSEメトリクス (経由CSI)] セクションでは、Fluid CSIプラグインおよびFUSEポッドを介してマウントされるFUSEクライアントのメトリクスを表示できます。これには、各FUSEポッドの入出力、メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSが含まれます。

      image

    • [FUSEメトリクス (Sidecar経由)] セクションでは、Fluid FUSEサイドカーを介してマウントされるFUSEクライアントのメトリクス (メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSなど) を表示できます。

      image

ARMSコンソールからFluidダッシュボードを表示する

  1. ログインして

    ARMSコンソールを使用します。

  2. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。 [クエリダッシュボード] タブをクリックし、コンポーネントのドロップダウンリストから [流体] を選択し、ページ下部の [流体制御プレーン]します。 ダッシュボードでFluidコントロールプレーンのモニタリングデータを表示できます。

    Fluidダッシュボードでは、コンポーネントのステータス、Fluidコントローラーの処理時間、Fluid webhookのQPS、リクエスト処理の待ち時間、各コンポーネントのリソース使用量など、Fluid制御プレーンコンポーネントに関する詳細情報を表示できます。 詳細については、「パネル」をご参照ください。

    • [コンポーネントの実行ステータス] セクションでは、[実行中] 状態にあるFluid制御プレーンポッドの数、再起動の回数、および各再起動の時間を表示できます。

    • [Fluid Controllerの詳細インジケータ] セクションでは、Fluidコントローラーがビジーであるかどうかを確認し、処理の失敗とKubernetes APIリクエストに関する情報を表示できます。

    • [Fluid Webhookの詳細インジケータ] セクションに、Fluid webhookのリソース使用量、処理されたリクエストの数、およびリクエスト処理のレイテンシが表示されます。

    • [リソース使用量] セクションでは、各Fluid制御プレーンコンポーネントのリソース使用量、ネットワーク送信レート、およびネットワーク受信レートを表示できます。

  3. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。 [クエリダッシュボード] タブをクリックし、コンポーネントのドロップダウンリストから [流体]し、ページ下部の [流体JindoRuntimeダッシュボード] をクリックします。 ダッシュボードでFluid JindoRuntimeキャッシュシステムのモニタリングデータを表示できます。

    • [データセットの概要] セクションでは、マスター、ワーカー、およびFUSEコンポーネントの正常なポッドの数、各ポッドのリソース構成など、Fluidデータセットの概要情報を表示できます。

    • [Cache System Metrics] セクションでは、現在のキャッシュ使用量、キャッシュヒット率、集計帯域幅、ファイルメタデータを処理するキャッシュシステムのQPSなど、選択したキャッシュシステムのメトリックを表示できます。

    • [FUSEメトリクス (経由CSI)] セクションでは、Fluid CSIプラグインおよびFUSEポッドを介してマウントされるFUSEクライアントのメトリクスを表示できます。これには、各FUSEポッドの入出力、メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSが含まれます。

    • [FUSEメトリクス (Sidecar経由)] セクションでは、Fluid FUSEサイドカーを介してマウントされるFUSEクライアントのメトリクス (メタデータ操作のレイテンシとQPS、読み取りおよび書き込み操作のレイテンシとQPSなど) を表示できます。

メトリクスの概要

次の表に、Fluid制御プレーンコンポーネントのモニタリングメトリックを示します。

メトリクス

タイプ

説明

dataset_ufs_total_size

ゲージ

現在のクラスター内の既存のDatasetオブジェクトにマウントされているデータセットのサイズ。

dataset_ufs_file_num

ゲージ

現在のクラスター内の既存のDatasetオブジェクトにマウントされているデータセットの数。

runtime_setup_error_total

Counter

コントローラーの調整時にランタイムの起動に失敗した回数。

runtime_sync_healthcheck_error_total

Counter

コントローラーの調整時に発生するランタイムヘルスチェックの失敗の数。

controller_runtime_reconcile_time_seconds_bucket

ヒストグラム

調整プロセスの期間。

controller_runtime_reconcile_errors_total

Counter

和解の失敗の数。

controller_runtime_reconcile_total

Counter

成功した和解の数。

controller_runtime_max_concurrent_reconciles

ゲージ

コントローラーでサポートされている同時調整の最大数。

controller_runtime_active_workers

ゲージ

コントローラのアクティブな調整の数。

workqueue_adds_total

Counter

コントローラワークキューによって処理された追加イベントの数。

workqueue_depth

ゲージ

コントローラーのワークキューの長さ。

workqueue_queue_duration_seconds_bucket

ヒストグラム

保留中のオブジェクトがコントローラのワークキューで待機している時間。

workqueue_work_duration_seconds_bucket

ヒストグラム

コントローラによって完了されたタスクの期間の分布。

workqueue_unfinished_work_seconds

ゲージ

コントローラワークキューで処理されているすべてのタスクの合計時間。

workqueue_longest_running_processor_seconds

ゲージ

コントローラーがタスクの処理に費やした最長時間。

rest_client_requests_total

Counter

ステータスコード、メソッド、およびホストに基づいて計算されたHTTPリクエストの数。

rest_client_request_duration_seconds_bucket

ヒストグラム

動詞とURLに基づいて計算されたHTTP応答レイテンシ。

controller_runtime_webhook_requests_in_flight

ゲージ

webhookによって処理されているリクエストの数。

controller_runtime_webhook_requests_total

Counter

webhookによって処理されるリクエストの総数。

controller_runtime_webhook_latency_seconds_bucket

ヒストグラム

webhookのリクエスト処理レイテンシ。

process_cpu_seconds_total

Counter

CPU稼働時間。

process_resident_memory_bytes

ゲージ

使用されたメモリの量。

次の表に、Fluid JindoRuntimeキャッシュシステムのダッシュボードに表示されるJindoCacheサーバーのメトリックを示します。

メトリクス

タイプ

説明

jindocache_server_total_stsnodes_num

ゲージ

現在の分散キャッシュシステム内のワーカーコンポーネントのアライブレプリカの数。

jindocache_server_total_disk_cap

ゲージ

分散キャッシュシステムのディスクキャッシュ (tmpfsなどのRAMディスクを含む) の最大サイズ。

jindocache_server_total_used_disk_cap

ゲージ

分散キャッシュシステムで使用されるディスクキャッシュ (tmpfsなどのRAMディスクを含む) の量。

jindocache_server_total_mem_cap

ゲージ

分散キャッシュシステムのRAMキャッシュの最大サイズ。

jindocache_server_total_used_mem_cap

ゲージ

分散キャッシュシステムで使用されるRAMキャッシュの量。

jindocache_server_total_used_rocksdb_cap

ゲージ

分散キャッシュシステムで使用されるRocksDB。

jindocache_server_backend_read_bytes_total

ゲージ

基になるストレージシステムから読み取られたデータの合計量。 単位はバイトです。

データがJindoCacheに見つからない場合、データは基になるストレージシステムから読み取られます。

jindocache_server_backend_read_time_total

ゲージ

基になるストレージシステムからデータを読み取る期間。 単位:マイクロ秒。

jindocache_server_backend_readop_num_total

ゲージ

基になるストレージシステムからデータが読み取られた合計回数。これは、JindoCache内のブロックの数に等しい。

jindocache_server_backend_read_bytes_time_total_window

ゲージ

基になるストレージシステムから1分以内にデータを読み取る時間。 単位:マイクロ秒。

jindocache_server_backend_read_bytes_total_window

ゲージ

基になるストレージシステムから1分以内に読み取られたデータの合計量。 単位はバイトです。

jindocache_server_remote_read_bytes_total

ゲージ

同じクラスター内のリモートキャッシュヒットを介して読み取られたデータの合計量。 単位はバイトです。

リモートキャッシュヒットは、要求されたデータがJindoCacheで見つかったが、キャッシュされたデータとアプリケーションが異なるノードに存在する場合に発生します。

jindocache_server_remote_read_time_total

ゲージ

同じクラスター内のリモートキャッシュヒットの合計時間。 単位:マイクロ秒。

jindocache_server_remote_readop_num_total

ゲージ

同じクラスター内のリモートキャッシュヒット数。

jindocache_server_remote_read_bytes_time_total_window

ゲージ

リモートキャッシュの合計時間は1分以内にヒットします。 単位:マイクロ秒。

jindocache_server_remote_read_bytes_total_window

ゲージ

リモートキャッシュを介して読み取られたデータの合計量が1分以内にヒットします。 単位はバイトです。

jindocache_server_local_read_bytes_total

ゲージ

同じクラスター内のローカルキャッシュヒットを介して読み取られたデータの合計量。 単位はバイトです。

ローカルキャッシュヒットは、要求されたデータがJindoCacheで検出され、キャッシュされたデータとアプリケーションが同じノードに存在する場合に発生します。

jindocache_server_local_read_time_total

ゲージ

同じクラスター内のローカルキャッシュヒットの合計期間。 単位:マイクロ秒。

jindocache_server_local_readop_num_total

ゲージ

同じクラスター内のローカルキャッシュヒットの総数。

jindocache_server_local_read_bytes_time_total_window

ゲージ

1分以内のローカルキャッシュヒットの合計時間。 単位:マイクロ秒。

jindocache_server_local_read_bytes_total_window

ゲージ

ローカルキャッシュから読み取られたデータの合計量が1分以内にヒットします。 単位はバイトです。

jindocache_server_ns_filelet_op_count_total

ゲージ

getAttrおよびlistStatus操作を含む、JindoCacheマスターコンポーネント側で実行されたファイルメタデータ操作の総数。

jindocache_server_ns_filelet_op_time_total

ゲージ

getAttrおよびlistStatus操作を含む、JindoCacheマスターコンポーネント側で実行されたファイルメタデータ操作の合計時間。

jindocache_server_ns_get_attr_op_total

ゲージ

JindoCacheマスターコンポーネント側で実行されたgetAttr操作の数。

jindocache_server_ns_get_attr_time_total

ゲージ

JindoCacheマスターコンポーネント側で実行されるgetAttr操作の期間。

jindocache_server_ns_get_attr_fallback_op_total

ゲージ

JindoCacheマスターコンポーネントが基になるストレージシステムからファイルメタデータを読み取る回数。

jindocache_server_ns_list_status_op_total

ゲージ

JindoCacheマスターコンポーネント側で実行されたlistStatus操作の数。

jindocache_server_ns_list_status_time_total

ゲージ

JindoCacheマスターコンポーネント側で実行されるlistStatus操作の期間。

jindocache_server_ns_list_status_fallback_op_total

ゲージ

JindoCacheマスターコンポーネントが基になるストレージシステムからファイルリストを読み取る回数。

jindocache_server_dist_get_attr_op_num_total

ゲージ

JindoCacheクライアント側で実行されたgetAttr操作の数。

jindocache_server_dist_get_attr_time_total

ゲージ

JindoCacheクライアント側で実行されるgetAttr操作の期間。

jindocache_server_dist_list_dir_op_num_total

ゲージ

JindoCacheクライアント側で実行されたlistStatus操作の数。

jindocache_server_dist_list_dir_time_total

ゲージ

JindoCacheクライアント側で実行されるlistStatus操作の期間。

次の表に、Fluid JindoRuntimeダッシュボードに表示されるJindoCache FUSEクライアントのメトリックを示します。

メトリクス

タイプ

説明

jindo_fuse_open_count

ゲージ

Jindo FUSEクライアントによって実行されたオープン操作の数。

jindo_fuse_open_latency

ゲージ

Jindo FUSEクライアントによって実行されるオープン操作のP50レイテンシ。

jindo_fuse_open_latency_80

ゲージ

Jindo FUSEクライアントによって実行されるオープン操作のP80レイテンシ。

jindo_fuse_open_latency_90

ゲージ

Jindo FUSEクライアントによって実行されるオープン操作のP90レイテンシ。

jindo_fuse_open_latency_99

ゲージ

Jindo FUSEクライアントによって実行されるオープン操作のP99レイテンシ。

jindo_fuse_open_latency_999

ゲージ

Jindo FUSEクライアントによって実行されるオープン操作のP99.9レイテンシ。

jindo_fuse_open_latency_9999

ゲージ

Jindo FUSEクライアントによって実行されるオープン操作のP99.99レイテンシ。

jindo_fuse_getattr_count

ゲージ

Jindo FUSEクライアントによって実行されたgetAttr操作の数。

jindo_fuse_getattr_latency

ゲージ

Jindo FUSEクライアントによって実行されるgetAttr操作のP50レイテンシ。

jindo_fuse_getattr_latency_80

ゲージ

Jindo FUSEクライアントによって実行されるgetAttr操作のP80レイテンシ。

jindo_fuse_getattr_latency_90

ゲージ

Jindo FUSEクライアントによって実行されるgetAttr操作のP90レイテンシ。

jindo_fuse_getattr_latency_99

ゲージ

Jindo FUSEクライアントによって実行されるgetAttr操作のP99レイテンシ。

jindo_fuse_getattr_latency_999

ゲージ

Jindo FUSEクライアントによって実行されるgetAttr操作のP99.9レイテンシ。

jindo_fuse_getattr_latency_9999

ゲージ

Jindo FUSEクライアントによって実行されるgetAttr操作のP99.99レイテンシ。

jindo_fuse_readdir_count

ゲージ

Jindo FUSEクライアントによって実行されたreadDir操作の数。

jindo_fuse_readdir_latency

ゲージ

Jindo FUSEクライアントによって実行されるreadDir操作のP50レイテンシ。

jindo_fuse_readdir_latency_80

ゲージ

Jindo FUSEクライアントによって実行されるreadDir操作のP80レイテンシ。

jindo_fuse_readdir_latency_90

ゲージ

Jindo FUSEクライアントによって実行されるreadDir操作のP90レイテンシ。

jindo_fuse_readdir_latency_99

ゲージ

Jindo FUSEクライアントによって実行されるreadDir操作のP99レイテンシ。

jindo_fuse_readdir_latency_999

ゲージ

Jindo FUSEクライアントによって実行されるreadDir操作のP99.9レイテンシ。

jindo_fuse_readdir_latency_9999

ゲージ

Jindo FUSEクライアントによって実行されるreadDir操作のP99.99レイテンシ。

jindo_fuse_read_count

ゲージ

Jindo FUSEクライアントによって実行された読み取り操作の数。

jindo_fuse_read_latency

ゲージ

Jindo FUSEクライアントによって実行される読み取り操作のP50レイテンシ。

jindo_fuse_read_latency_80

ゲージ

Jindo FUSEクライアントによって実行される読み取り操作のP80レイテンシ。

jindo_fuse_read_latency_90

ゲージ

Jindo FUSEクライアントによって実行される読み取り操作のP90レイテンシ。

jindo_fuse_read_latency_99

ゲージ

Jindo FUSEクライアントによって実行される読み取り操作のP99レイテンシ。

jindo_fuse_read_latency_999

ゲージ

Jindo FUSEクライアントによって実行される読み取り操作のP99.9レイテンシ。

jindo_fuse_read_latency_9999

ゲージ

Jindo FUSEクライアントによって実行される読み取り操作のP99.99レイテンシ。

jindo_fuse_write_count

ゲージ

Jindo FUSEクライアントによって実行された書き込み操作の数。

jindo_fuse_write_latency

ゲージ

Jindo FUSEクライアントによって実行される書き込み操作のP50レイテンシ。

jindo_fuse_write_latency_80

ゲージ

Jindo FUSEクライアントによって実行される書き込み操作のP80レイテンシ。

jindo_fuse_write_latency_90

ゲージ

Jindo FUSEクライアントによって実行される書き込み操作のP90レイテンシ。

jindo_fuse_write_latency_99

ゲージ

Jindo FUSEクライアントによって実行される書き込み操作のP99レイテンシ。

jindo_fuse_write_latency_999

ゲージ

Jindo FUSEクライアントによって実行される書き込み操作のP99.9レイテンシ。

jindo_fuse_write_latency_9999

ゲージ

Jindo FUSEクライアントによって実行される書き込み操作のP99.99レイテンシ。

関連ドキュメント

  • Fluidの詳細については、「Fluidの概要」をご参照ください。

  • Fluidパネルの詳細については、「パネル」をご参照ください。