全部产品
Search
文档中心

Container Service for Kubernetes:Konfigurasi Pemantauan untuk Layanan Inferensi LLM

更新时间:Sep 10, 2025

Observabilitas sangat penting dalam mengelola layanan inferensi model bahasa besar (LLM) di lingkungan produksi. Dengan memantau metrik kinerja utama dari layanan, pod, dan GPU terkait, Anda dapat secara efektif mengidentifikasi hambatan kinerja serta mendiagnosis kegagalan. Topik ini menjelaskan cara mengonfigurasi pemantauan untuk layanan inferensi LLM.

Prasyarat

Managed Service for Prometheus harus diaktifkan di kluster Container Service for Kubernetes (ACK) Anda.

Penagihan

Saat mengaktifkan pemantauan untuk layanan inferensi LLM, metrik dikirim ke Managed Service for Prometheus sebagai metrik kustom.

Penggunaan metrik kustom akan menimbulkan biaya tambahan. Biaya dapat bervariasi berdasarkan faktor-faktor seperti ukuran kluster, jumlah aplikasi, dan volume data. Anda dapat memantau dan mengelola konsumsi sumber daya melalui kueri penggunaan.

Langkah 1: Akses dasbor pemantauan layanan inferensi LLM

  1. Masuk ke Konsol ARMS.

  2. Di panel navigasi sebelah kiri, klik Integration Center. Di bagian AI, klik kartu Cloud-Native AI Suite LLM Inference.

  3. Di panel Cloud-Native AI Suite LLM Inference, pilih kluster target.

    Jika komponen sudah terinstal, lewati langkah ini.
  4. Di bagian Configuration Information, konfigurasikan parameter yang diperlukan dan klik OK untuk menghubungkan komponen.

    Parameter

    Deskripsi

    Nama Akses

    Nama unik untuk pemantauan layanan inferensi LLM saat ini. Parameter ini opsional.

    Namespace

    Namespace dari mana metrik akan dikumpulkan. Parameter ini opsional. Jika dibiarkan kosong, metrik akan dikumpulkan dari semua namespace yang memenuhi kriteria.

    Pod Port

    Nama port pada pod layanan inferensi LLM. Port ini akan digunakan untuk pengumpulan metrik. Nilai default: http.

    Path Pengumpulan Metrik

    Path HTTP pada pod layanan inferensi LLM yang mengekspos metrik dalam format Prometheus. Nilai default: /metrics.

    Interval Pengumpulan (detik)

    Interval waktu pengumpulan data pemantauan.

  5. Anda dapat melihat semua komponen terintegrasi di halaman Integration Management Konsol ARMS.

Untuk detail lebih lanjut tentang Pusat Integrasi, lihat Panduan Integrasi.

Langkah 2: Terapkan layanan inferensi dengan pengumpulan metrik diaktifkan

Untuk mengaktifkan pengumpulan metrik untuk layanan inferensi LLM Anda, tambahkan label berikut ke spesifikasi pod di manifes penyebaran:

...
spec:
  template:
    metadata:
      labels:
        alibabacloud.com/inference-workload: <workload_name>
        alibabacloud.com/inference-backend: <backend>

Label

Tujuan

Deskripsi

alibabacloud.com/inference-workload

Pengenal unik untuk layanan inferensi dalam sebuah namespace.

Nilai yang direkomendasikan: Nama sumber daya beban kerja (seperti StatefulSet, Deployment, dan RoleBasedGroup) yang mengelola pod.

Saat label ini ada, pod akan ditambahkan ke target pengumpulan metrik ARMS.

alibabacloud.com/inference-backend

Mesin inferensi yang digunakan oleh layanan.

Nilai yang didukung meliputi:

  • vllm: Untuk layanan inferensi mandiri atau terdistribusi menggunakan vLLM.

  • sglang: Untuk layanan inferensi mandiri atau terdistribusi menggunakan SGLang.

  • vllm-pd: Untuk layanan inferensi menggunakan vLLM dengan prefill/decode (PD) disagregasi.

  • sglang-pd: Untuk layanan inferensi menggunakan SGLang dengan PD disagregasi.

Potongan kode di atas menunjukkan cara mengaktifkan pengumpulan metrik untuk pod layanan inferensi LLM. Untuk contoh penyebaran lengkap, lihat topik berikut:

Langkah 3: Lihat dasbor pemantauan layanan inferensi

  1. Masuk ke Konsol ACK.

  2. Di panel navigasi sebelah kiri, klik Clusters.

  3. Di halaman Clusters, klik kluster ACK atau Alibaba Cloud Container Compute Service (ACS) target. Di panel navigasi sebelah kiri, pilih Operations > Prometheus Monitoring.

  4. Di halaman Prometheus Monitoring, pilih Others > LLM Inference Dashboard untuk melihat data performa rinci.

  5. Gunakan filter dasbor untuk memilih namespace, workload_name, dan model_name yang ingin Anda periksa. Untuk penjelasan rinci setiap panel, lihat Deskripsi Panel Dasbor.

Metrik Referensi

Dasbor pemantauan menggabungkan metrik dari sumber-sumber berikut:

Deskripsi panel dasbor

Dasbor layanan inferensi LLM dirancang untuk memberikan tampilan hierarkis performa layanan Anda. Dasbor ini mengasumsikan bahwa beban kerja Kubernetes menyebarkan layanan inferensi. Layanan inferensi dapat mencakup beberapa instans, di mana satu instans dapat terdiri dari satu atau lebih pod. Setiap instans layanan inferensi dapat menyediakan kemampuan inferensi LLM untuk satu atau lebih model, seperti model dasar yang digabungkan dengan adaptor LoRA.

Dasbor ini terorganisir menjadi tiga bagian utama:

Tingkat Model

Berisi metrik agregat untuk model tertentu di seluruh layanan inferensinya. Gunakan panel ini untuk menilai performa keseluruhan dan kesehatan layanan model.

image.png

Tingkat Pod

Menyediakan pemecahan metrik performa berdasarkan pod individu. Gunakan panel ini untuk menganalisis distribusi beban dan mengidentifikasi variasi performa antara pod layanan.

image.png

Statistik GPU (Terkait dengan Pod)

Menyediakan metrik rinci tentang pemanfaatan GPU untuk setiap pod. Gunakan panel ini untuk memahami penggunaan sumber daya GPU oleh setiap pod layanan inferensi.

image.png

Informasi panel rinci

Tabel berikut menjelaskan setiap panel di dasbor serta kompatibilitasnya dengan berbagai mesin inferensi:

Panel Tingkat Model

Nama Panel

Deskripsi

Kompatibilitas mesin inferensi

QPS

Total permintaan yang diproses per detik di semua instans layanan.

vllm dan sglang

Tingkat Keberhasilan Permintaan

Persentase permintaan yang berhasil diproses.

vllm

Latensi E2E

Rata-rata waktu pemrosesan permintaan.

vllm dan sglang

Throughput Token

Laju token input (prompt) dan output (generasi) yang diproses per detik.

vllm dan sglang

Throughput Token per GPU

Rata-rata laju throughput token per kartu GPU untuk input (prompt) dan output (generasi) layanan inferensi.

vllm dan sglang

Panjang Prompt Permintaan

Distribusi (rata-rata dan kuantil) panjang token input.

vllm (rata-rata dan kuantil) dan sglang (hanya rata-rata)

Panjang Generasi Permintaan

Distribusi (rata-rata dan kuantil) panjang token output.

vllm (rata-rata dan kuantil) dan sglang (hanya rata-rata)

TTFT(Waktu Hingga Token Pertama)

Latensi untuk menghasilkan token output pertama (rata-rata dan kuantil).

vllm dan sglang

TPOT(Waktu Per Token Output)

Latensi untuk menghasilkan token output berikutnya (rata-rata dan kuantil).

vllm dan sglang

Rasio Hit Cache KV

Rasio hit cache KV rata-rata untuk setiap instans layanan inferensi. Ini hanya efektif ketika fitur cache awalan diaktifkan dalam kerangka inferensi.

vllm dan sglang

Peta Panas Panjang Prompt Permintaan

Peta panas yang menunjukkan distribusi panjang token input.

vllm

Peta Panas Panjang Generasi Permintaan

Peta panas yang menunjukkan distribusi panjang token output.

vllm

Panel Tingkat Pod

Nama Panel

Deskripsi

Kompatibilitas mesin inferensi

Latensi Permintaan E2E

Rata-rata waktu pemrosesan permintaan per pod.

vllm, sglang, vllm-pd, dan sglang-pd

Throughput Token

Laju token input (prompt) dan output (generasi) yang diproses per detik, per pod.

vllm, sglang, vllm-pd, dan sglang-pd

Latensi Waktu Hingga Token Pertama

Latensi untuk menghasilkan token output pertama per pod (rata-rata dan kuantil).

vllm, sglang, vllm-pd, dan sglang-pd

Latensi Waktu Per Token Output

Latensi untuk menghasilkan token output berikutnya per pod (rata-rata dan kuantil).

vllm, sglang, vllm-pd, dan sglang-pd

Pemanfaatan Cache KV

Persentase cache KV yang sedang digunakan per pod.

vllm, sglang, vllm-pd, dan sglang-pd

Status Penjadwal

Jumlah permintaan dalam status Menunggu, Berjalan, atau Ditukar per pod.

vllm, sglang, vllm-pd, dan sglang-pd

Saat menggunakan sglang atau sglang-pd, hanya status Menunggu dan Berjalan yang didukung.

Alasan Selesai

Jumlah permintaan yang selesai karena alasan tertentu dalam periode pemantauan. Alasan termasuk:

  • abort: Menghentikan operasi sebelum selesai.

  • length: Panjang output maksimum telah tercapai.

vllm dan vllm-pd

Waktu Antrian

Rata-rata waktu yang dihabiskan permintaan di antrian penjadwal per pod.

vllm, sglang, vllm-pd, dan sglang-pd

Waktu Prefill dan Decode Permintaan

Rata-rata waktu yang dihabiskan di fase prefill dan decode per pod.

vllm dan vllm-pd

Rasio Hit Cache KV

Rasio hit cache KV untuk setiap pod layanan inferensi. Ini hanya efektif ketika fitur cache awalan diaktifkan dalam kerangka inferensi.

Berlaku untuk vllm, sglang, vllm-pd, dan sglang-pd

Panel Statistik GPU (Terkait dengan Pod)

Nama Panel

Deskripsi

Kompatibilitas mesin inferensi

Aktivitas Tensor GPU Pod

Rata-rata persentase siklus bahwa pipeline Tensor (HMMA/IMMA) aktif di seluruh setiap GPU dalam pod layanan inferensi.

Nilai ini merupakan rata-rata selama interval waktu, bukan nilai instan.

vllm, sglang, vllm-pd, dan sglang-pd

Pemanfaatan GPU Pod

Rata-rata pemanfaatan keseluruhan setiap GPU.

vllm, sglang, vllm-pd, dan sglang-pd

Aktivitas SM GPU Pod

Rata-rata pemanfaatan Streaming Multiprocessors (SM) di seluruh setiap GPU.

vllm, sglang, vllm-pd, dan sglang-pd

Pemanfaatan Salinan Memori GPU Pod

Rata-rata pemanfaatan bandwidth memori setiap GPU.

vllm, sglang, vllm-pd, dan sglang-pd

Memori GPU Digunakan Pod

Rata-rata jumlah memori GPU yang digunakan oleh setiap pod.

Berlaku untuk vllm, sglang, vllm-pd, dan sglang-pd

Aktivitas DRAM GPU Pod

Frekuensi eksekusi instruksi memori di seluruh setiap GPU selama periode sampel.

Berlaku untuk vllm, sglang, vllm-pd, dan sglang-pd