Konfigurasi Pemantauan untuk Layanan Inferensi LLM - Container Service for Kubernetes

Observabilitas sangat penting dalam mengelola layanan inferensi model bahasa besar (LLM) di lingkungan produksi. Dengan memantau metrik kinerja utama dari layanan, pod, dan GPU terkait, Anda dapat secara efektif mengidentifikasi hambatan kinerja serta mendiagnosis kegagalan. Topik ini menjelaskan cara mengonfigurasi pemantauan untuk layanan inferensi LLM.

Prasyarat

Managed Service for Prometheus harus diaktifkan di kluster Container Service for Kubernetes (ACK) Anda.

Penagihan

Saat mengaktifkan pemantauan untuk layanan inferensi LLM, metrik dikirim ke Managed Service for Prometheus sebagai metrik kustom.

Penggunaan metrik kustom akan menimbulkan biaya tambahan. Biaya dapat bervariasi berdasarkan faktor-faktor seperti ukuran kluster, jumlah aplikasi, dan volume data. Anda dapat memantau dan mengelola konsumsi sumber daya melalui kueri penggunaan.

Langkah 1: Akses dasbor pemantauan layanan inferensi LLM

Masuk ke Konsol ARMS.
Di panel navigasi sebelah kiri, klik Integration Center. Di bagian AI, klik kartu Cloud-Native AI Suite LLM Inference.
Di panel Cloud-Native AI Suite LLM Inference, pilih kluster target.
Jika komponen sudah terinstal, lewati langkah ini.

Di bagian Configuration Information, konfigurasikan parameter yang diperlukan dan klik OK untuk menghubungkan komponen.

Parameter	Deskripsi
Nama Akses	Nama unik untuk pemantauan layanan inferensi LLM saat ini. Parameter ini opsional.
Namespace	Namespace dari mana metrik akan dikumpulkan. Parameter ini opsional. Jika dibiarkan kosong, metrik akan dikumpulkan dari semua namespace yang memenuhi kriteria.
Pod Port	Nama port pada pod layanan inferensi LLM. Port ini akan digunakan untuk pengumpulan metrik. Nilai default: `http`.
Path Pengumpulan Metrik	Path HTTP pada pod layanan inferensi LLM yang mengekspos metrik dalam format Prometheus. Nilai default: `/metrics`.
Interval Pengumpulan (detik)	Interval waktu pengumpulan data pemantauan.

Anda dapat melihat semua komponen terintegrasi di halaman Integration Management Konsol ARMS.

Untuk detail lebih lanjut tentang Pusat Integrasi, lihat Panduan Integrasi.

Langkah 2: Terapkan layanan inferensi dengan pengumpulan metrik diaktifkan

Untuk mengaktifkan pengumpulan metrik untuk layanan inferensi LLM Anda, tambahkan label berikut ke spesifikasi pod di manifes penyebaran:

...
spec:
  template:
    metadata:
      labels:
        alibabacloud.com/inference-workload: <workload_name>
        alibabacloud.com/inference-backend: <backend>

Label

Tujuan

Deskripsi

alibabacloud.com/inference-workload

Pengenal unik untuk layanan inferensi dalam sebuah namespace.

Nilai yang direkomendasikan: Nama sumber daya beban kerja (seperti StatefulSet, Deployment, dan RoleBasedGroup) yang mengelola pod.

Saat label ini ada, pod akan ditambahkan ke target pengumpulan metrik ARMS.

alibabacloud.com/inference-backend

Mesin inferensi yang digunakan oleh layanan.

Nilai yang didukung meliputi:

vllm: Untuk layanan inferensi mandiri atau terdistribusi menggunakan vLLM.
sglang: Untuk layanan inferensi mandiri atau terdistribusi menggunakan SGLang.
vllm-pd: Untuk layanan inferensi menggunakan vLLM dengan prefill/decode (PD) disagregasi.
sglang-pd: Untuk layanan inferensi menggunakan SGLang dengan PD disagregasi.

Potongan kode di atas menunjukkan cara mengaktifkan pengumpulan metrik untuk pod layanan inferensi LLM. Untuk contoh penyebaran lengkap, lihat topik berikut:

Langkah 3: Lihat dasbor pemantauan layanan inferensi

Masuk ke Konsol ACK.
Di panel navigasi sebelah kiri, klik Clusters.
Di halaman Clusters, klik kluster ACK atau Alibaba Cloud Container Compute Service (ACS) target. Di panel navigasi sebelah kiri, pilih Operations > Prometheus Monitoring.
Di halaman Prometheus Monitoring, pilih Others > LLM Inference Dashboard untuk melihat data performa rinci.
Gunakan filter dasbor untuk memilih namespace, workload_name, dan model_name yang ingin Anda periksa. Untuk penjelasan rinci setiap panel, lihat Deskripsi Panel Dasbor.

Metrik Referensi

Dasbor pemantauan menggabungkan metrik dari sumber-sumber berikut:

Metrik vLLM: Lihat daftar resmi daftar metrik vLLM.
Metrik SGLang: Lihat daftar resmi daftar metrik SGLang.

Deskripsi panel dasbor

Dasbor layanan inferensi LLM dirancang untuk memberikan tampilan hierarkis performa layanan Anda. Dasbor ini mengasumsikan bahwa beban kerja Kubernetes menyebarkan layanan inferensi. Layanan inferensi dapat mencakup beberapa instans, di mana satu instans dapat terdiri dari satu atau lebih pod. Setiap instans layanan inferensi dapat menyediakan kemampuan inferensi LLM untuk satu atau lebih model, seperti model dasar yang digabungkan dengan adaptor LoRA.

Dasbor ini terorganisir menjadi tiga bagian utama:

Tingkat Model

Berisi metrik agregat untuk model tertentu di seluruh layanan inferensinya. Gunakan panel ini untuk menilai performa keseluruhan dan kesehatan layanan model.

Tingkat Pod

Menyediakan pemecahan metrik performa berdasarkan pod individu. Gunakan panel ini untuk menganalisis distribusi beban dan mengidentifikasi variasi performa antara pod layanan.

Statistik GPU (Terkait dengan Pod)

Menyediakan metrik rinci tentang pemanfaatan GPU untuk setiap pod. Gunakan panel ini untuk memahami penggunaan sumber daya GPU oleh setiap pod layanan inferensi.

Informasi panel rinci

Tabel berikut menjelaskan setiap panel di dasbor serta kompatibilitasnya dengan berbagai mesin inferensi:

Panel Tingkat Model

Nama Panel	Deskripsi	Kompatibilitas mesin inferensi
QPS	Total permintaan yang diproses per detik di semua instans layanan.	`vllm` dan `sglang`
Tingkat Keberhasilan Permintaan	Persentase permintaan yang berhasil diproses.	`vllm`
Latensi E2E	Rata-rata waktu pemrosesan permintaan.	`vllm` dan `sglang`
Throughput Token	Laju token input (prompt) dan output (generasi) yang diproses per detik.	`vllm` dan `sglang`
Throughput Token per GPU	Rata-rata laju throughput token per kartu GPU untuk input (prompt) dan output (generasi) layanan inferensi.	`vllm` dan `sglang`
Panjang Prompt Permintaan	Distribusi (rata-rata dan kuantil) panjang token input.	`vllm` (rata-rata dan kuantil) dan `sglang` (hanya rata-rata)
Panjang Generasi Permintaan	Distribusi (rata-rata dan kuantil) panjang token output.	`vllm` (rata-rata dan kuantil) dan `sglang` (hanya rata-rata)
TTFT(Waktu Hingga Token Pertama)	Latensi untuk menghasilkan token output pertama (rata-rata dan kuantil).	`vllm` dan `sglang`
TPOT(Waktu Per Token Output)	Latensi untuk menghasilkan token output berikutnya (rata-rata dan kuantil).	`vllm` dan `sglang`
Rasio Hit Cache KV	Rasio hit cache KV rata-rata untuk setiap instans layanan inferensi. Ini hanya efektif ketika fitur cache awalan diaktifkan dalam kerangka inferensi.	`vllm` dan `sglang`
Peta Panas Panjang Prompt Permintaan	Peta panas yang menunjukkan distribusi panjang token input.	`vllm`
Peta Panas Panjang Generasi Permintaan	Peta panas yang menunjukkan distribusi panjang token output.	`vllm`

Panel Tingkat Pod

Nama Panel	Deskripsi	Kompatibilitas mesin inferensi
Latensi Permintaan E2E	Rata-rata waktu pemrosesan permintaan per pod.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Throughput Token	Laju token input (prompt) dan output (generasi) yang diproses per detik, per pod.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Latensi Waktu Hingga Token Pertama	Latensi untuk menghasilkan token output pertama per pod (rata-rata dan kuantil).	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Latensi Waktu Per Token Output	Latensi untuk menghasilkan token output berikutnya per pod (rata-rata dan kuantil).	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Pemanfaatan Cache KV	Persentase cache KV yang sedang digunakan per pod.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Status Penjadwal	Jumlah permintaan dalam status `Menunggu`, `Berjalan`, atau `Ditukar` per pod.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd` Saat menggunakan `sglang` atau `sglang-pd`, hanya status `Menunggu` dan `Berjalan` yang didukung.
Alasan Selesai	Jumlah permintaan yang selesai karena alasan tertentu dalam periode pemantauan. Alasan termasuk: `abort`: Menghentikan operasi sebelum selesai. `length`: Panjang output maksimum telah tercapai.	`vllm` dan `vllm-pd`
Waktu Antrian	Rata-rata waktu yang dihabiskan permintaan di antrian penjadwal per pod.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Waktu Prefill dan Decode Permintaan	Rata-rata waktu yang dihabiskan di fase prefill dan decode per pod.	`vllm` dan `vllm-pd`
Rasio Hit Cache KV	Rasio hit cache KV untuk setiap pod layanan inferensi. Ini hanya efektif ketika fitur cache awalan diaktifkan dalam kerangka inferensi.	Berlaku untuk `vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`

Panel Statistik GPU (Terkait dengan Pod)

Nama Panel	Deskripsi	Kompatibilitas mesin inferensi
Aktivitas Tensor GPU Pod	Rata-rata persentase siklus bahwa pipeline Tensor (HMMA/IMMA) aktif di seluruh setiap GPU dalam pod layanan inferensi. Nilai ini merupakan rata-rata selama interval waktu, bukan nilai instan.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Pemanfaatan GPU Pod	Rata-rata pemanfaatan keseluruhan setiap GPU.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Aktivitas SM GPU Pod	Rata-rata pemanfaatan Streaming Multiprocessors (SM) di seluruh setiap GPU.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Pemanfaatan Salinan Memori GPU Pod	Rata-rata pemanfaatan bandwidth memori setiap GPU.	`vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Memori GPU Digunakan Pod	Rata-rata jumlah memori GPU yang digunakan oleh setiap pod.	Berlaku untuk `vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`
Aktivitas DRAM GPU Pod	Frekuensi eksekusi instruksi memori di seluruh setiap GPU selama periode sampel.	Berlaku untuk `vllm`, `sglang`, `vllm-pd`, dan `sglang-pd`