Gateway with Inference Extension コンポーネントは、データプレーンメトリックを Prometheus にエクスポートします。このトピックでは、Managed Service for Prometheus を使用してコンポーネントのデータプレーンの正常性をモニターする方法について説明します。
前提条件
バージョン 1.4.0 以降の Gateway with Inference Extension コンポーネントがインストールされており、[Enable Gateway API Inference Extension] を選択していること。詳細については、「コンポーネントのインストール」をご参照ください。
Managed Service for Prometheus を有効化していること。
メトリック収集方法
Gateway with Inference Extension の推論拡張機能は、最初のトークンまでの時間 (TTFT) やトークンスループットレートなど、生成 AI 推論サービスのための包括的なメトリックを提供します。メトリックフォーマットは、OpenTelemetry の生成 AI セマンティック規則に準拠しています。
収集ルールを手動で構成する
収集ルールを手動で構成する場合、デフォルトのサービス検出は不要です。
Prometheus コンソールにログインします。左側のナビゲーションウィンドウで、[Integration Center] をクリックします。
検索ボックスに `gateway` と入力します。[Artificial Intelligence] で、[Gateway With Inference Extension] をクリックします。
表示されるダイアログボックスで、[Select Container Service Cluster] ドロップダウンリストからターゲットクラスターを選択し、[OK] をクリックします。
ダイアログボックスのデフォルト構成を維持します。
すぐに開始するには、クイックスタートで説明されているモックアプリケーションを使用できます。
カスタム収集
手動収集ルールは、デフォルトでコンポーネントのすべてのデータプレーンメトリックを収集します。また、カスタム収集ジョブを追加して、Gateway with Inference Extension コンポーネントのモニタリングメトリックをカスタマイズすることもできます。次のコードは、一般的なメトリックのカスタム構成のサンプルを示しています。
scrape_configs:
- job_name: 'ack-gateway'
kubernetes_sd_configs:
- role: pod
namespaces:
names:
- envoy-gateway-system
relabel_configs:
- source_labels: [__meta_kubernetes_pod_label_app_kubernetes_io_managed_by]
regex: envoy-gateway
action: keep
scrape_interval: 15s
metrics_path: /stats/prometheus
scheme: http
metric_relabel_configs:
- source_labels: [__name__]
regex: |
(envoy_server_live|envoy_server_uptime|envoy_server_memory_allocated|envoy_server_memory_heap_size|
envoy_cluster_membership_healthy|envoy_cluster_membership_total|envoy_cluster_upstream_cx_active|
envoy_cluster_upstream_rq_total|envoy_cluster_upstream_cx_rx_bytes_total|envoy_cluster_upstream_cx_tx_bytes_total|
envoy_http_downstream_cx_rx_bytes_total|envoy_http_downstream_cx_tx_bytes_total|envoy_cluster_upstream_rq_time_bucket|
envoy_cluster_upstream_rq_xx|envoy_http_downstream_rq_total|envoy_http_downstream_cx_total|envoy_http_downstream_rq_time_bucket|
envoy_listener_downstream_cx_active|envoy_tcp_downstream_cx_total|envoy_tcp_downstream_cx_rx_bytes_total|
envoy_tcp_downstream_cx_tx_bytes_total|envoy_cluster_upstream_cx_total)
action: keepメトリックダッシュボード
Gateway with Inference Extension は、Grafana ダッシュボードも提供します。クラスターのこれらのダッシュボードを表示するには、 に移動します。
ACK Gateway GenAI: このダッシュボードには、現在のクラスターにおける生成 AI 推論サービスのさまざまなメトリックが表示されます。

Envoy Global: このダッシュボードは、ゲートウェイの全体的なモニタリングを提供します。ゲートウェイのリソース使用量、アップストリームおよびダウンストリーム接続の概要、エンドポイントの正常性などのメトリックが含まれます。

Envoy Clusters: これは Envoy Cluster レベルのダッシュボードです。Envoy では、Cluster はエンドポイントのセットを表します。Gateway with Inference Extension では、Cluster は通常、HTTPRoute の最初のルールの最初のターゲットサービスなどのルーティングターゲットを表します。このダッシュボードは、Cluster レベルでより詳細な情報を提供します。
