インテリジェントな推論ルーティングによる推論リクエストのキューイングと優先順位付けスケジューリングの実装 - Container Service for Kubernetes

推論拡張機能付きゲートウェイは、推論サービスの負荷を認識したリクエストキューイングと優先順位付けスケジューリングをサポートしています。生成系 AI 推論サーバーがフル稼働している場合、ゲートウェイは、割り当てられたモデルの重要度に基づいてキュー内のリクエストの優先順位を付けます。これにより、優先度の高いモデルのリクエストが最初に処理されるようになります。このトピックでは、推論拡張機能付きゲートウェイのこれらの機能について紹介します。

重要

この機能には、推論拡張機能付きゲートウェイの バージョン 1.4.0 以降が必要です。

背景

生成系 AI 推論サービスの場合、単一の推論サーバーのリクエストスループットは、その GPU リソースによって厳密に制限されます。多くの同時リクエストが同じサーバーに送信されると、推論エンジンのキーバリュー（KV）キャッシングなどのリソースが完全に占有され、すべてのリクエストの応答時間とトークンスループットが低下します。

推論拡張機能付きゲートウェイは、複数のメトリックを監視して各推論サーバーの内部状態を評価することで、この問題に対処します。サーバーの負荷が容量に達すると、ゲートウェイは受信推論リクエストをキューに入れ、サーバーが過負荷になるのを防ぎ、全体的なサービス品質を維持します。

前提条件

GPU ノードプールを持つ ACK マネージドクラスターが作成されている。また、ACS GPU 計算能力を使用するために、ACK マネージドクラスターに ACK Virtual Node コンポーネントをインストールすることもできます。
推論拡張機能付きゲートウェイ 1.4.0 がインストールされ、[ゲートウェイ API 推論拡張を有効にする] が選択されている。操作エントリの詳細については、「手順 2: 推論拡張機能付きゲートウェイコンポーネントをインストールする」をご参照ください。

説明

このトピックで説明されているイメージについては、ACK クラスターには A10 カード、Alibaba Cloud Container Compute Service（ACS）GPU 計算能力には L20(GN8IS) カードを使用することをお勧めします。

LLM イメージのサイズが大きいため、事前に Container Registry に転送し、内部ネットワークアドレスを使用してプルすることをお勧めします。パブリックネットワークからのプルの速度は、クラスターの Elastic IP Address（EIP）の帯域幅構成によって異なり、待ち時間が長くなる可能性があります。

手順

手順 1: サンプル推論サービスをデプロイする

vllm-service.yaml を作成します。

YAML コンテンツを表示

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: qwen
  name: qwen
spec:
  replicas: 5
  selector:
    matchLabels:
      app: qwen
  template:
    metadata:
      annotations:
        prometheus.io/path: /metrics
        prometheus.io/port: "8000"
        prometheus.io/scrape: "true"
      labels:
        app: qwen
    spec:
      containers:
      - command:
        - sh
        - -c
        - vllm serve /models/Qwen-2.5-7B-Instruct --port 8000 --enable_prefix_caching --trust-remote-code --served-model-name /model/qwen --max-model-len 8192 --gpu-memory-utilization 0.95 --enforce-eager --enable-lora --max-loras 2 --max-cpu-loras 4 --lora-modules travel-helper-v1=/models/Qwen-TravelHelper-Lora travel-helper-v2=/models/Qwen-TravelHelper-Lora-v2
        image: registry-cn-hangzhou.ack.aliyuncs.com/dev/qwen-2.5-7b-instruct-lora:v0.1
        imagePullPolicy: IfNotPresent
        name: custom-serving
        ports:
        - containerPort: 8000
          name: http
          protocol: TCP
        readinessProbe:
          failureThreshold: 3
          initialDelaySeconds: 30
          periodSeconds: 30
          successThreshold: 1
          tcpSocket:
            port: 8000
          timeoutSeconds: 1
        resources:
          limits:
            nvidia.com/gpu: "1"
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
      volumes:
      - emptyDir:
          medium: Memory
          sizeLimit: 30Gi
        name: dshm
---
apiVersion: v1
kind: Service
metadata:
  labels:
    app: qwen
  name: qwen
spec:
  ports:
  - name: http-serving
    port: 8000
    protocol: TCP
    targetPort: 8000
  selector:
    app: qwen

サンプル推論サービスをデプロイします。
```
kubectl apply -f vllm-service.yaml
```

手順 2: 推論ルーティングを構成する

この手順では、InferencePool と InferenceModel リソースを作成します。 inference-epp-env.networking.x-k8s.io/experimental-use-queueing: "true" アノテーションと inference-epp-env.networking.x-k8s.io/experimental-use-scheduler-v2: "true" アノテーションを InferencePool に追加することで、選択した推論サービスのリクエストキューイング機能を有効にします。

inference-pool.yaml という名前のファイルを作成します。

apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferencePool
metadata:
  annotations:
    inference-epp-env.networking.x-k8s.io/experimental-use-queueing: "true"
    inference-epp-env.networking.x-k8s.io/experimental-use-scheduler-v2: "true"
  name: qwen-pool
  namespace: default
spec:
  extensionRef:
    group: ""
    kind: Service
    name: qwen-ext-proc
  selector:
    app: qwen
  targetPortNumber: 8000
---
apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferenceModel
metadata:
  name: qwen-model
spec:
  criticality: Critical
  modelName: qwen
  poolRef:
    group: inference.networking.x-k8s.io
    kind: InferencePool
    name: qwen-pool
  targetModels:
  - name: qwen
    weight: 100
---
apiVersion: inference.networking.x-k8s.io/v1alpha2
kind: InferenceModel
metadata:
  name: travel-helper-model
spec:
  criticality: Standard
  modelName: travel-helper
  poolRef:
    group: inference.networking.x-k8s.io
    kind: InferencePool
    name: qwen-pool
  targetModels:
  - name: travel-helper-v1
    weight: 100

この構成では、サンプル推論サービスによって提供される 2 つのモデルを表す 2 つの InferenceModel リソースを定義します。

qwen-model: ベースモデル qwen を表し、Critical 重要度レベルが割り当てられます。
travel-helper-model: LoRA モデル travel-helper を表し、Standard 重要度レベルが割り当てられます。

使用可能な重要度レベルは、優先順位の高い順に、Critical > Standard > Sheddable です。キューイングが有効になっていて、バックエンドサーバーがフル稼働している場合、優先度の高いモデルのリクエストは、優先度の低いモデルのリクエストよりも前に処理されます。

推論ルーティング構成をデプロイします。
```
kubectl apply -f inference-pool.yaml
```

手順 3: ゲートウェイとルーティングルールをデプロイする

この手順では、ゲートウェイと HTTPRoute を構成して、qwen モデルと travel-helper モデルのリクエストを qwen-pool バックエンド InferencePool にルーティングします。

inference-gateway.yaml という名前のファイルを作成します。

apiVersion: gateway.networking.k8s.io/v1
kind: GatewayClass
metadata:
  name: inference-gateway
spec:
  controllerName: gateway.envoyproxy.io/gatewayclass-controller
---
apiVersion: gateway.networking.k8s.io/v1
kind: Gateway
metadata:
  name: inference-gateway
spec:
  gatewayClassName: inference-gateway
  listeners:
    - name: llm-gw
      protocol: HTTP
      port: 8081
---
apiVersion: gateway.networking.k8s.io/v1
kind: HTTPRoute
metadata:
  name: llm-route
  namespace: default
spec:
  parentRefs:
  - group: gateway.networking.k8s.io
    kind: Gateway
    name: inference-gateway
    sectionName: llm-gw
  rules:
  - backendRefs:
    - group: inference.networking.x-k8s.io
      kind: InferencePool
      name: qwen-pool
    matches:
    - headers:
      - type: Exact
        name: X-Gateway-Model-Name
        value: qwen
    - headers:
      - type: RegularExpression
        name: X-Gateway-Model-Name
        value: travel-helper.*
---
apiVersion: gateway.envoyproxy.io/v1alpha1
kind: BackendTrafficPolicy
metadata:
  name: backend-timeout
spec:
  timeout:
    http:
      requestTimeout: 24h
  targetRef:
    group: gateway.networking.k8s.io
    kind: Gateway
    name: inference-gateway

ゲートウェイをデプロイします。
```
kubectl apply -f inference-gateway.yaml
```

手順 4: キューイングと優先順位付けスケジューリングを検証する

この手順では、vLLM ベンチマークツールを使用して、qwen モデルと travel-helper モデルの両方の負荷テストを同時に行い、推論サーバーをフル稼働させます。

ベンチマークワークロードをデプロイします。

kubectl apply -f- <<EOF
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: vllm-benchmark
  name: vllm-benchmark
  namespace: default
spec:
  progressDeadlineSeconds: 600
  replicas: 1
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: vllm-benchmark
  strategy:
    rollingUpdate:
      maxSurge: 25%
      maxUnavailable: 25%
    type: RollingUpdate
  template:
    metadata:
      creationTimestamp: null
      labels:
        app: vllm-benchmark
    spec:
      containers:
      - command:
        - sh
        - -c
        - sleep inf
        image: registry-cn-hangzhou.ack.aliyuncs.com/dev/llm-benchmark:random-and-qa
        imagePullPolicy: IfNotPresent
        name: vllm-benchmark
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
EOF

ゲートウェイの内部 IP を取得します。

export GW_IP=$(kubectl get svc -n envoy-gateway-system -l gateway.envoyproxy.io/owning-gateway-namespace=default,gateway.envoyproxy.io/owning-gateway-name=inference-gateway -o jsonpath='{.items[0].spec.clusterIP}')

2 つの別々のターミナルウィンドウを開き、負荷テストを同時実行します。

重要

次のデータはテスト環境で生成されたものであり、参考値です。結果は環境によって異なる場合があります。

ターミナル 1: qwen （重要）モデルの負荷テスト

kubectl exec -it deploy/vllm-benchmark -- env GW_IP=${GW_IP} python3 /root/vllm/benchmarks/benchmark_serving.py \
--backend vllm \
--model /models/DeepSeek-R1-Distill-Qwen-7B \
--served-model-name qwen \
--trust-remote-code \
--dataset-name random \
--random-prefix-len 1000 \
--random-input-len 3000 \
--random-output-len 3000 \
--random-range-ratio 0.2 \
--num-prompts 300 \
--max-concurrency 60 \
--host $GW_IP \
--port 8081 \
--endpoint /v1/completions \
--save-result \
2>&1 | tee benchmark_serving.txt

予期される出力：

============ Serving Benchmark Result ============
Successful requests:                     293       
Benchmark duration (s):                  1005.55   
Total input tokens:                      1163919   
Total generated tokens:                  837560    
Request throughput (req/s):              0.29      
Output token throughput (tok/s):         832.94    
Total Token throughput (tok/s):          1990.43   
---------------Time to First Token----------------
Mean TTFT (ms):                          21329.91  
Median TTFT (ms):                        15754.01  
P99 TTFT (ms):                           140782.55 
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          58.58     
Median TPOT (ms):                        58.36     
P99 TPOT (ms):                           91.09     
---------------Inter-token Latency----------------
Mean ITL (ms):                           58.32     
Median ITL (ms):                         50.56     
P99 ITL (ms):                            64.12     
==================================================

ターミナル 2: travel-helper （標準）モデルの負荷テスト

kubectl exec -it deploy/vllm-benchmark -- env GW_IP=${GW_IP} python3 /root/vllm/benchmarks/benchmark_serving.py \
--backend vllm \
--model /models/DeepSeek-R1-Distill-Qwen-7B \
--served-model-name travel-helper \
--trust-remote-code \
--dataset-name random \
--random-prefix-len 1000 \
--random-input-len 3000 \
--random-output-len 3000 \
--random-range-ratio 0.2 \
--num-prompts 300 \
--max-concurrency 60 \
--host $GW_IP \
--port 8081 \
--endpoint /v1/completions \
--save-result \
2>&1 | tee benchmark_serving.txt