全部产品
Search
文档中心

Alibaba Cloud Service Mesh:Manajemen trafik LLM

更新时间:Nov 27, 2025

Sebagian besar penyedia model bahasa besar (LLM) utama menawarkan layanan melalui protokol HTTP. Service Mesh (ASM) mengoptimalkan permintaan LLM berbasis HTTP. ASM mendukung standar protokol dari berbagai penyedia LLM utama dan menyediakan pengalaman integrasi yang sederhana dan efisien. Topik ini menjelaskan cara mengelola traffic LLM di ASM, dengan fokus pada routing traffic dan observabilitas.

Gambaran fitur

Routing Trafik

Dalam service mesh, untuk mendaftarkan layanan HTTP eksternal ke dalam kluster, Anda perlu mengonfigurasi ServiceEntry terlebih dahulu, lalu menetapkan aturan routing menggunakan VirtualService. Setelah itu, Anda dapat memanggil layanan eksternal tersebut melalui gerbang atau Pod aplikasi. Jika layanan dipanggil secara langsung tanpa pendaftaran, fitur manajemen traffic dan observabilitas yang disediakan oleh service mesh tidak dapat dimanfaatkan.

Namun, ServiceEntry native hanya mendukung traffic TCP dan HTTP biasa. Permintaan LLM memiliki parameter lanjutan spesifik yang memperluas protokol HTTP, sehingga tidak didukung oleh ServiceEntry standar. Untuk mengatasi hal ini, ASM memperkenalkan dua resource baru:

  • LLMProvider: LLMProvider analog dengan ServiceEntry untuk protokol HTTP. Resource ini digunakan untuk mendaftarkan penyedia layanan LLM eksternal ke kluster serta mengonfigurasi host, Kunci API, dan parameter model lainnya.

  • LLMRoute: LLMRoute analog dengan VirtualService untuk protokol HTTP. Resource ini digunakan untuk mengonfigurasi aturan traffic dan mendistribusikan traffic ke LLMProvider tertentu berdasarkan bobot atau kondisi pencocokan.

Berdasarkan konfigurasi LLMRoute dan LLMProvider, ASM secara dinamis memilih tujuan routing, menambahkan parameter permintaan yang telah dikonfigurasi sebelumnya, lalu mengirim permintaan ke penyedia yang sesuai. Konfigurasi ini memungkinkan Anda mengubah konfigurasi penyedia dengan cepat, memilih model berbeda berdasarkan karakteristik permintaan, serta melakukan operasi seperti pergeseran traffic grayscale antarpenyedia. Hal ini secara signifikan mengurangi kompleksitas integrasi model besar ke dalam kluster. Dua skenario berikut menjelaskan cara mengelola traffic LLM menggunakan LLMRoute dan LLMProvider.

Konfigurasikan LLMRoute untuk menggunakan model berbeda bagi tipe pengguna berbeda

Alibaba Cloud Model Studio menyediakan dua model: qwen-1.8b-chat dan qwen-turbo. Anda dapat membuat dan mengonfigurasi LLMRoute untuk mengarahkan panggilan dari pengguna biasa ke model default qwen-1.8b-chat, serta panggilan dari pengguna berlangganan ke model qwen-turbo yang lebih kuat. Permintaan dari pengguna berlangganan mencakup Header khusus yang mengidentifikasi status mereka.

Konfigurasikan LLMProvider dan LLMRoute untuk mendistribusikan traffic berdasarkan bobot

Skenario ini menggabungkan layanan model bahasa dari Alibaba Cloud Model Studio dan Moonshot. Anda dapat mengonfigurasi LLMRoute dan LLMProvider untuk mengarahkan traffic ke LLMProvider berbeda berdasarkan bobot.

Catatan

demo-llm-server adalah layanan biasa dalam kluster dan tidak berkorespondensi dengan titik akhir apa pun.

Observabilitas Trafik

Selain routing permintaan LLM, ASM menyediakan observabilitas yang ditingkatkan untuk memenuhi kebutuhan lanjutan dalam skenario LLM. Sistem perangkat lunak yang andal harus memiliki data observabel yang akurat dan jelas, sehingga staf operasi dan maintenance (O&M) serta developer dapat memantau status operasional layanan kapan saja dan merespons secara tepat.

Fitur observabilitas dalam service mesh mencakup tiga komponen utama:

  • Log akses

  • Data deret waktu pemantauan

  • Analisis Tracing

Karena permintaan LLM berbasis protokol HTTP, fitur tersebut secara langsung kompatibel dengan fitur Analisis Tracing yang sudah ada. Namun, fitur log akses dan metrik pemantauan saat ini belum cukup untuk mengamati permintaan LLM. Misalnya, log akses tidak dapat menampilkan informasi spesifik LLM seperti model yang digunakan dalam permintaan, dan metrik pemantauan hanya mencerminkan informasi HTTP standar. Oleh karena itu, ASM meningkatkan fitur log akses dan metrik pemantauannya. Peningkatan ini mencakup dua aspek utama:

  • Log akses: Anda dapat menggunakan fitur format log akses kustom untuk mencetak informasi spesifik LLM dalam log akses.

  • Metrik pemantauan:

    • ASM menambahkan dua metrik pemantauan baru untuk menampilkan jumlah token input (prompt tokens) dan token output (completion tokens) dalam suatu permintaan.

    • Informasi spesifik LLM ditambahkan sebagai dimensi metrik yang dapat Anda referensikan dalam metrik Istio standar.

Gambaran skenario

Dengan mengintegrasikan LLM ke dalam ASM, Anda dapat menerapkan rilis grayscale, routing berbasis bobot, serta berbagai fitur observabilitas. Hal ini semakin memisahkan aplikasi dari LLMProvider dan meningkatkan ketahanan serta kemudahan pemeliharaan seluruh rantai panggilan. Skenario-skenario berikut menjelaskan cara mengonfigurasi dan menerapkan fitur routing dan observabilitas traffic LLM.