すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:サービスのパフォーマンスと正常性を監視するためにKServeを使用してデプロイされたサービスのManaged Service for Prometheusを構成する

最終更新日:Nov 21, 2024

KServeは、サービスのパフォーマンスと正常性の監視に役立つ一連のデフォルトのPrometheusメトリクスを提供します。 このトピックでは、KServeを使用してデプロイされたサービスに対してPrometheusのManaged Serviceを構成する方法について説明します。 この例では、NVIDIA V100 GPUを使用するQwen-7B-Chat-Int8モデルが使用されています。

前提条件

  • バージョン0.9.15以降のArenaクライアントがインストールされています。 詳細については、「Arenaクライアントの設定」をご参照ください。

  • ack-kserveコンポーネントがインストールされています。 詳細については、「ack-kserveのインストール」をご参照ください。

  • Container Service for Kubernetes (ACK) クラスターでは、Managed Service for Prometheusが有効になっています。 詳細については、「Prometheusのマネージドサービス」トピックの手順1: Prometheusのマネージドサービスの有効化を参照してください。

手順1: KServerを使用したアプリケーションのデプロイ

  1. 次のコマンドを実行して、KServerを使用してscikit-learnベースのアプリケーションをデプロイします。

    arena serve kserve \
        --name=sklearn-iris \
        --image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/ai-sample/kserve-sklearn-server:v0.12.0 \
        --cpu=1 \
        --memory=200Mi \
        --enable-prometheus=true \
        --metrics-port=8080 \
        "python -m sklearnserver --model_name=sklearn-iris --model_dir=/models --http_port=8080"

    期待される出力:

    service/sklearn-iris-metric-svc created # A service named sklearn-iris-metric-svc is created. 
    inferenceservice.serving.kserve.io/sklearn-iris created # An inference service named sklearn-iris is created by using KServer. 
    servicemonitor.monitoring.coreos.com/sklearn-iris-svcmonitor created # A ServiceMonitor is created to integrate Managed Service for Prometheus and collect the monitoring data of the sklearn-iris-metric-svc service. 
    INFO[0004] The Job sklearn-iris has been submitted successfully # The job is submitted to the cluster. 
    INFO[0004] You can run `arena serve get sklearn-iris --type kserve -n default` to check the job status

    上記の出力は、Arenaクライアントが、KServerおよび統合されたManaged service for Prometheusをサービスとともに使用して、scikit-learnベースのサービスの展開プロセスを開始したことを示しています。

  2. 次のコマンドを実行して、次のJSONコードを. /iris-input.jsonファイルを使用して推論要求を作成します。

    cat <<EOF > "./iris-input.json"
    {
      "instances": [
        [6.8,  2.8,  4.8,  1.4],
        [6.0,  3.4,  4.5,  1.6]
      ]
    }
    EOF
  3. 次のコマンドを実行して、NGINX IngressゲートウェイのIPアドレスと、クラスターから推論サービスへの外部アクセスを許可するURLのホスト名を取得します。

    NGINX_INGRESS_IP=`kubectl -n kube-system get svc nginx-ingress-lb -ojsonpath='{.status.loadBalancer.ingress[0].ip}'`
    SERVICE_HOSTNAME=$(kubectl get inferenceservice sklearn-iris -o jsonpath='{.status.url}' | cut -d "/" -f 3)
  4. 次のコマンドを実行して、ストレステストツールheyを使用してサービスに複数回アクセスし、モニタリングデータを生成します。

    説明

    heyの詳細については、「hey」をご参照ください。

    hey -z 2m -c 20 -m POST -host $SERVICE_HOSTNAME -H "Content-Type: application/json" -D ./iris-input.json http://${NGINX_INGRESS_IP}:80/v1/models/sklearn-iris:predict

    期待される出力:

    期待出力の表示

    Summary:
      Total:	120.0296 secs
      Slowest:	0.1608 secs
      Fastest:	0.0213 secs
      Average:	0.0275 secs
      Requests/sec:	727.3875
      
      Total data:	1833468 bytes
      Size/request:	21 bytes
    
    Response time histogram:
      0.021 [1]	|
      0.035 [85717]	|■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■
      0.049 [1272]	|■
      0.063 [144]	|
      0.077 [96]	|
      0.091 [44]	|
      0.105 [7]	|
      0.119 [0]	|
      0.133 [0]	|
      0.147 [11]	|
      0.161 [16]	|
    
    
    Latency distribution:
      10% in 0.0248 secs
      25% in 0.0257 secs
      50% in 0.0270 secs
      75% in 0.0285 secs
      90% in 0.0300 secs
      95% in 0.0315 secs
      99% in 0.0381 secs
    
    Details (average, fastest, slowest):
      DNS+dialup:	0.0000 secs, 0.0213 secs, 0.1608 secs
      DNS-lookup:	0.0000 secs, 0.0000 secs, 0.0000 secs
      req write:	0.0000 secs, 0.0000 secs, 0.0225 secs
      resp wait:	0.0273 secs, 0.0212 secs, 0.1607 secs
      resp read:	0.0001 secs, 0.0000 secs, 0.0558 secs
    
    Status code distribution:
      [200]	87308 responses

    上記の出力は、処理速度、データスループット、応答遅延などの主要なメトリックに基づいて、ストレステストでのシステムのパフォーマンスをまとめたものです。 これは、システムの効率と安定性を評価するのに役立ちます。

  5. 必要に応じて、 アプリケーションのメトリクスを手動で収集し、メトリクスが適切に公開されていることを確認します。

    次の例は、ACKクラスター内のsklearn-irisを含む特定のポッドからモニタリングメトリクスを収集し、ポッドに直接ログインしたり、ポッドのポートを外部ネットワークに公開したりすることなく、データをローカルで表示する方法を示しています。

    1. 次のコマンドを実行して、名前がsklearn-irisを含むポッドのポート8080をローカルホストのポート8080にマップします。 $POD_NAME変数を使用して、ポッド名を指定できます。 このようにして、ローカルホストのポート8080に送信された要求は、ポッドのポート8080に透過的に転送されます。

      # Specify the pod name. 
      POD_NAME=`kubectl get po|grep sklearn-iris |awk -F ' ' '{print $1}'`
      # Map port 8080 of the pod to port 8080 of the local host. 
      kubectl port-forward pod/$POD_NAME 8080:8080

      期待される出力:

      Forwarding from 127.0.0.1:8080 -> 8080
      Forwarding from [::1]:8080 -> 8080

      上記の出力は、IPv4アドレスまたはIPv6アドレスのどちらを使用してローカルホストに接続しても、ローカルホストのポート8080に送信されたリクエストが期待どおりにポッドのポート8080に転送されることを示しています。

    2. ブラウザに次のURLを入力して、ポッドのポート8080にアクセスし、メトリックを表示します。

      http://localhost:8080/metrics

      期待される出力:

      期待出力の表示

      # HELP python_gc_objects_collected_total Objects collected during gc
      # TYPE python_gc_objects_collected_total counter
      python_gc_objects_collected_total{generation="0"} 10298.0
      python_gc_objects_collected_total{generation="1"} 1826.0
      python_gc_objects_collected_total{generation="2"} 0.0
      # HELP python_gc_objects_uncollectable_total Uncollectable object found during GC
      # TYPE python_gc_objects_uncollectable_total counter
      python_gc_objects_uncollectable_total{generation="0"} 0.0
      python_gc_objects_uncollectable_total{generation="1"} 0.0
      python_gc_objects_uncollectable_total{generation="2"} 0.0
      # HELP python_gc_collections_total Number of times this generation was collected
      # TYPE python_gc_collections_total counter
      python_gc_collections_total{generation="0"} 660.0
      python_gc_collections_total{generation="1"} 60.0
      python_gc_collections_total{generation="2"} 5.0
      # HELP python_info Python platform information
      # TYPE python_info gauge
      python_info{implementation="CPython",major="3",minor="9",patchlevel="18",version="3.9.18"} 1.0
      # HELP process_virtual_memory_bytes Virtual memory size in bytes.
      # TYPE process_virtual_memory_bytes gauge
      process_virtual_memory_bytes 1.406291968e+09
      # HELP process_resident_memory_bytes Resident memory size in bytes.
      # TYPE process_resident_memory_bytes gauge
      process_resident_memory_bytes 2.73207296e+08
      # HELP process_start_time_seconds Start time of the process since unix epoch in seconds.
      # TYPE process_start_time_seconds gauge
      process_start_time_seconds 1.71533439115e+09
      # HELP process_cpu_seconds_total Total user and system CPU time spent in seconds.
      # TYPE process_cpu_seconds_total counter
      process_cpu_seconds_total 228.18
      # HELP process_open_fds Number of open file descriptors.
      # TYPE process_open_fds gauge
      process_open_fds 16.0
      # HELP process_max_fds Maximum number of open file descriptors.
      # TYPE process_max_fds gauge
      process_max_fds 1.048576e+06
      # HELP request_preprocess_seconds pre-process request latency
      # TYPE request_preprocess_seconds histogram
      request_preprocess_seconds_bucket{le="0.005",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.01",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.025",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.05",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.075",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.1",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.25",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.5",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="0.75",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="1.0",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="2.5",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="5.0",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="7.5",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="10.0",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_bucket{le="+Inf",model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_count{model_name="sklearn-iris"} 259709.0
      request_preprocess_seconds_sum{model_name="sklearn-iris"} 1.7146860011853278
      # HELP request_preprocess_seconds_created pre-process request latency
      # TYPE request_preprocess_seconds_created gauge
      request_preprocess_seconds_created{model_name="sklearn-iris"} 1.7153354578475933e+09
      # HELP request_postprocess_seconds post-process request latency
      # TYPE request_postprocess_seconds histogram
      request_postprocess_seconds_bucket{le="0.005",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.01",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.025",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.05",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.075",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.1",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.25",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.5",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="0.75",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="1.0",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="2.5",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="5.0",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="7.5",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="10.0",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_bucket{le="+Inf",model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_count{model_name="sklearn-iris"} 259709.0
      request_postprocess_seconds_sum{model_name="sklearn-iris"} 1.625360683305189
      # HELP request_postprocess_seconds_created post-process request latency
      # TYPE request_postprocess_seconds_created gauge
      request_postprocess_seconds_created{model_name="sklearn-iris"} 1.7153354578482144e+09
      # HELP request_predict_seconds predict request latency
      # TYPE request_predict_seconds histogram
      request_predict_seconds_bucket{le="0.005",model_name="sklearn-iris"} 259708.0
      request_predict_seconds_bucket{le="0.01",model_name="sklearn-iris"} 259708.0
      request_predict_seconds_bucket{le="0.025",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="0.05",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="0.075",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="0.1",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="0.25",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="0.5",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="0.75",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="1.0",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="2.5",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="5.0",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="7.5",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="10.0",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_bucket{le="+Inf",model_name="sklearn-iris"} 259709.0
      request_predict_seconds_count{model_name="sklearn-iris"} 259709.0
      request_predict_seconds_sum{model_name="sklearn-iris"} 47.95311741752084
      # HELP request_predict_seconds_created predict request latency
      # TYPE request_predict_seconds_created gauge
      request_predict_seconds_created{model_name="sklearn-iris"} 1.7153354578476949e+09
      # HELP request_explain_seconds explain request latency
      # TYPE request_explain_seconds histogram

      上記の出力は、ポッド内のアプリケーションのパフォーマンスとステータスを評価するためのメトリックを示しています。 要求は最終的にポッド内のアプリケーションに転送されます。

手順2: KServeを使用してデプロイされたアプリケーションのメトリックを照会

  1. ログインして

    ARMSコンソールを使用します。

  2. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。

  3. 上部のナビゲーションバーで、ACKクラスターが存在するリージョンを選択します。 [統合管理] ページで、[クエリダッシュボード] タブをクリックします。

  4. ダッシュボードリストで、Kubernetes PodダッシュボードをクリックしてGrafanaページに移動します。

  5. Grafanaページの左側のナビゲーションウィンドウで、[探索] をクリックします。 [Explore] ページで、request_predict_seconds_bucketステートメントを入力して、アプリケーションメトリックの値を照会します。

    説明

    データを5分の遅延で収集する。

    image

よくある質問

問題

request_predict_seconds_bucketメトリックのデータが収集されているかどうかを判断するにはどうすればよいですか。 メトリックデータの収集に失敗した場合はどうすればよいですか?

解決策

  1. ログインして

    ARMSコンソールを使用します。

  2. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。

  3. 上部のナビゲーションバーで、ACKクラスターが存在するリージョンを選択します。 [統合管理] ページで、[統合環境] タブの [コンテナーサービス] タブをクリックし、環境名をクリックして詳細ページを表示します。 Container Serviceページで、セルフモニタリングタブをクリックします。

  4. [セルフモニタリング] タブの左側のウィンドウで、[ターゲット] タブをクリックします。 default/sklearn-iris-svcmonitor/0 (1/1 up) が表示されている場合、測定データが収集されます。

    メトリックデータの収集に失敗した場合、

    チケットを起票し、テクニカルサポートを求めます。

関連ドキュメント

KServeが提供するデフォルトのメトリックについては、「Prometheus metrics」をご参照ください。