Gunakan fitur pengamatan model untuk melakukan operasi berikut:
Lihat catatan panggilan
Pantau dan buat peringatan untuk metrik, seperti latensi token, durasi panggilan, permintaan per menit (RPM), token per menit (TPM), dan laju kegagalan
Lacak konsumsi token
Ketersediaan model
Semua model dalam Daftar model didukung.
Pantau operasi model
Setelah Anda mengaktifkan layanan inferensi model, Alibaba Cloud Model Studio secara otomatis menambahkan empat kategori metrik pemantauan berikut ke dasbor Pengamatan Model:
Keamanan: Mengidentifikasi konten yang tidak sesuai dalam percakapan, seperti
kesalahan Moderasi Konten.Biaya: Mengevaluasi efektivitas biaya model, seperti
rata-rata token per permintaan.Kinerja: Mengamati perubahan kinerja model, seperti
durasi panggilandanwaktu hingga token pertama.Kesalahan: Menentukan stabilitas model, seperti
kegagalandanlaju kegagalan.
Anda dapat membuat peringatan berdasarkan metrik di atas untuk segera mendeteksi dan menangani anomali.
Langkah 1: Aktifkan layanan inferensi model
Jika pesan berikut ditampilkan di bagian atas Konsol Model Studio, gunakan Akun Alibaba Cloud Anda untuk mengaktifkan layanan dan mendapatkan kuota panggilan gratis. Jika pesan tersebut tidak muncul, berarti layanan sudah diaktifkan.

Setelah diaktifkan, sistem secara otomatis mengumpulkan data panggilan model dari semua ruang kerja di bawah akun Alibaba Cloud Anda. Saat terjadi panggilan model langsung atau tidak langsung, sistem akan mengumpulkan dan menyinkronkan data terkait ke daftar Pengamatan Model (Singapura atau Beijing).
Catatan daftar dibuat berdasarkan model dan ruang kerja. Model baru akan ditambahkan secara otomatis ke daftar setelah sinkronisasi data pertama selesai. Latensi untuk Pemantauan Dasar biasanya dalam skala jam. Untuk wawasan data tingkat menit, gunakan Pemantauan Lanjutan.
Anggota ruang kerja default dapat melihat detail panggilan model untuk semua ruang kerja. Anggota sub-ruang kerja hanya dapat melihat data untuk ruang kerja saat ini dan tidak dapat beralih untuk melihat data dari ruang kerja lain.
Langkah 2: Lihat metrik pemantauan
Saat model muncul dalam daftar, klik Monitor di kolom Actions untuk melihat Call Statistics, seperti jumlah panggilan dan jumlah kegagalan. Filter statistik berdasarkan Kunci API, Jenis Inferensi, dan rentang waktu.
Kesalahan batas laju: Mengacu pada kegagalan dengan kode status 429.
Kesalahan Moderasi Konten: Mengacu pada panggilan yang dicegat oleh layanan Moderasi Konten karena input atau output mengandung konten sensitif atau berisiko tinggi yang dicurigai, seperti pornografi, konten politik, atau iklan.
Pada tab Performance Metrics, Anda dapat melihat metrik seperti RPM, TPM, durasi panggilan, dan waktu hingga token pertama.
Lihat konsumsi token
Dalam praktiknya, penyesuaian parameter model, prompt sistem, dan operasi lainnya dapat mengubah konsumsi token model. Untuk menghitung dan mengelola biaya dengan kontrol detail halus, Pengamatan Model menyediakan fitur pemantauan biaya berikut:
Rangkuman: Merangkum konsumsi token historis model berdasarkan ruang kerja. Anda dapat memfilter lebih lanjut berdasarkan rentang waktu dan Kunci API.
Peringatan: Memungkinkan Anda menetapkan ambang batas konsumsi token. Sistem segera mengirim peringatan ketika model tertentu menunjukkan konsumsi yang tidak normal.
Langkah 1: Aktifkan layanan inferensi model
Pastikan Anda telah mengaktifkan layanan model.
Langkah 2: Lihat konsumsi token atau buat peringatan
Lihat konsumsi token historis suatu model:
Lihat konsumsi token selama 30 hari terakhir:
Untuk melihat data penggunaan yang lebih lama, kueri data di halaman Biaya dan Pengeluaran.
Buat peringatan untuk konsumsi tidak normal:
Lihat Buat peringatan proaktif.
Buat peringatan proaktif
Kegagalan diam model, seperti timeout atau lonjakan tiba-tiba dalam konsumsi token, sulit dideteksi dengan log aplikasi tradisional. Pengamatan Model memungkinkan Anda menetapkan peringatan untuk metrik pemantauan seperti biaya, laju kegagalan, dan latensi respons. Jika suatu metrik menjadi tidak normal, sistem segera mengirim peringatan.
Langkah 1: Aktifkan Pemantauan Lanjutan
Pastikan Anda telah mengaktifkan layanan inferensi model.
Masuk dengan akun Alibaba Cloud (atau Pengguna RAM dengan izin yang cukup). Pada halaman Pengamatan Model (Singapura atau Beijing) untuk ruang kerja target, klik Model Observation Configurations di pojok kanan atas.
Di area Pemantauan Lanjutan, Anda dapat mengaktifkan secara manual Performance and Usage Metrics Monitoring.
Langkah 2: Buat aturan peringatan
Di halaman Peringatan Model (Singapura atau Beijing), klik Create Alert Rule di pojok kanan atas.
Dalam kotak dialog, pilih model dan templat pemantauan, lalu klik Create. Jika metrik pemantauan yang ditentukan (seperti statistik panggilan atau metrik kinerja) menjadi tidak normal, sistem akan memberi tahu tim Anda.
Metode notifikasi: Metode yang didukung meliputi pesan teks, email, panggilan telepon, robot grup DingTalk, robot WeCom, dan Webhook.
Tingkat peringatan: Tingkat yang tersedia adalah General, Warning, Error, dan Urgent. Tingkat-tingkat ini telah ditentukan sebelumnya dan tidak dapat diubah. Metode notifikasi sama untuk semua tingkat. Kami menyarankan agar Anda menetapkan prosedur penanganan yang konsisten dalam tim Anda.
Hubungkan ke Grafana atau aplikasi kustom
Data metrik pemantauan dari Pengamatan Model disimpan dalam instans Prometheus pribadi Anda. Data ini mendukung API HTTP Prometheus standar, yang dapat Anda gunakan untuk menghubungkan ke Grafana atau aplikasi kustom Anda guna analisis visual.
Langkah 1: Dapatkan alamat API HTTP sumber data
Pastikan Anda telah mengaktifkan Pemantauan Lanjutan.
Di halaman Model Observation (Singapura atau Beijing), klik Model Observation Configurations di sudut kanan atas, lalu klik View Details di sebelah kanan instans CloudMonitor Prometheus.
Pada tab Settings, salin URL API HTTP yang sesuai dengan lingkungan jaringan klien Anda, Internet atau Jaringan Internal (VPC).

Langkah 2: Hubungkan ke Grafana atau aplikasi kustom
Hubungkan ke aplikasi kustom
Contoh berikut menunjukkan cara mengambil data pemantauan menggunakan API HTTP Prometheus. Untuk detail penggunaan API lengkap, lihat referensi API HTTP Prometheus.
Contoh 1: Kueri konsumsi token (query=
model_usage) untuk semua model di semua ruang kerja di bawah Akun Alibaba Cloud Anda dalam rentang waktu tertentu (sepanjang hari 20 November 2025, UTC), dengan ukuran langkahstep=60s.Contoh
Deskripsi parameter
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query: Nilai
querydapat diganti dengan nama metrik apa pun dari daftar Monitoring metrics di bawah ini.HTTP API: Ganti
{HTTP API}dengan alamat API HTTP yang Anda peroleh di Langkah 1.Otorisasi: Gabungkan
AccessKey:AccessKeySecretAkun Alibaba Cloud Anda, encode string hasilnya dengan Base64, dan berikan dalam formatBasic <string-encoded>.Nilai contoh: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
Catatan: AccessKey dan Rahasia AccessKey harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.
Contoh 2: Berdasarkan Contoh 1, tambahkan filter untuk mengambil konsumsi token hanya untuk model tertentu (model=
qwen-plus) di ruang kerja tertentu (workspace_id=llm-nymssti2mzww****).Contoh
Deskripsi
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query: Masukkan beberapa kondisi filter dalam
{}dan pisahkan dengan koma. Contoh:{workspace_id="value1",model="value2"}. Berikut adalah kondisi filter yang didukung (LabelKey).
Hubungkan ke Grafana
Tambahkan sumber data pengamatan model di Grafana (self-hosted atau layanan Grafana Alibaba Cloud). Topik ini menggunakan Grafana 10.x (versi Bahasa Inggris) sebagai contoh. Langkah-langkah untuk versi lain serupa. Untuk informasi lebih lanjut, lihat dokumentasi resmi Grafana.
Tambahkan sumber data:
Masuk ke Grafana menggunakan akun administrator. Klik ikon
di pojok kiri atas halaman dan pilih . Klik + Add new data source. Untuk jenis sumber data, pilih Prometheus.Pada tab Settings, konfigurasikan informasi sumber data:
Name: Masukkan nama kustom.
Prometheus server URL: Masukkan alamat API HTTP yang Anda peroleh di Langkah 1.
Auth: Aktifkan Basic auth, dan atur User (Akun Alibaba Cloud Anda AccessKey) dan Password (Akun Alibaba Cloud Anda Rahasia AccessKey).
AccessKey dan Rahasia AccessKey harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.

Klik Save & Test di bagian bawah tab.
Kueri metrik:
Klik ikon
di pojok kiri atas halaman Grafana dan, di panel navigasi kiri, klik Dashboards.Klik di sisi kanan halaman Dashboards untuk membuat dasbor baru.
Klik + Add visualization dan pilih sumber data yang baru saja Anda buat.
Pada halaman Edit Panel, klik tab Query. Di area A, pilih _name_ dan nama metrik di bidang Label filters. Misalnya, untuk mengkueri konsumsi token model
model_usage:Contoh
Deskripsi

Dalam contoh ini, nilai
_name_(model_usage) dapat diganti dengan nama metrik apa pun dari daftar Monitoring metrics.Anda dapat menambahkan filter label berikut untuk mempersempit kueri lebih lanjut:
Klik Run queries.
Jika data berhasil dirender dalam grafik, konfigurasi berhasil. Jika tidak, periksa hal berikut: 1) Alamat API HTTP, AccessKey, dan Rahasia AccessKey benar. 2) Instans Prometheus dari Langkah 1 berisi data pemantauan.
Bandingkan mode pemantauanPengamatan model menyediakan dua mode pemantauan: Basic Monitoring dan Advanced Monitoring. Basic Monitoring: Layanan dasar ini diaktifkan secara otomatis saat layanan model diaktifkan dan tidak dapat dinonaktifkan. Advanced Monitoring: Harus diaktifkan secara manual oleh akun Alibaba Cloud atau Pengguna RAM dengan izin yang cukup di halaman Pengamatan Model (Singapore atau Beijing) ruang kerja target. Fitur ini dapat dinonaktifkan. Hanya data panggilan yang dihasilkan setelah fitur ini diaktifkan yang dicatat.
| ||||||||||||||||||||||||||||
Kuota dan batasan
Periode retensi data: Secara default, data untuk Pemantauan Dasar dan Lanjutan disimpan selama 30 hari. Untuk mengkueri informasi penggunaan yang lebih dari 30 hari, buka halaman Biaya dan Pengeluaran.
Batas templat peringatan: Anda dapat membuat hingga 100 templat peringatan di setiap ruang kerja.
Batas API: Anda dapat mengkueri data metrik pemantauan untuk Pengamatan Model melalui API HTTP Prometheus.
Solusi alternatif: Untuk mengambil konsumsi token untuk satu panggilan melalui API, Anda dapat mengekstrak data panggilan saat ini dari bidang
usagedalam tanggapan dari setiap panggilan model. Bidang ini memiliki struktur berikut. Untuk informasi lebih lanjut, lihat referensi API Qwen:{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
Penagihan
Pemantauan Dasar: Tidak dikenai biaya.
Pemantauan Lanjutan: Setelah Anda mengaktifkan fitur ini, data pemantauan tingkat menit ditulis ke layanan CloudMonitor (CMS), yang menimbulkan biaya tambahan. Untuk informasi lebih lanjut tentang metode penagihan, lihat Ikhtisar penagihan CloudMonitor.
FAQ
Mengapa saya tidak dapat menemukan jumlah panggilan dan konsumsi token di Pengamatan Model setelah memanggil model?
Anda dapat melakukan troubleshooting sebagai berikut:
Latensi data: Pastikan Anda telah menunggu cukup lama untuk sinkronisasi data. Data disinkronkan per jam untuk Pemantauan Dasar dan setiap menit untuk Pemantauan Lanjutan.
Ruang kerja: Jika Anda berada di sub-ruang kerja, Anda hanya dapat melihat data untuk ruang kerja tersebut. Beralihlah ke ruang kerja default untuk melihat semua data.
Apa kemungkinan penyebab timeout saat saya memanggil model bahasa besar?
Alasan umum meliputi:
Output panjang: Model menghasilkan terlalu banyak konten, sehingga total waktu melebihi batas tunggu klien. Anda dapat menggunakan metode keluaran streaming untuk menerima token pertama lebih cepat.
Masalah jaringan: Periksa apakah konektivitas jaringan antara klien dan layanan Alibaba Cloud stabil.
Bagaimana cara mengonfigurasi izin untuk pengguna RAM agar dapat mengaktifkan Pemantauan Lanjutan?
Ikuti langkah-langkah berikut:
Berikan izin
AliyunBailianFullAccessmanajemen global kepada pengguna RAM.Tetapkan izin
ModelObservation-FullAccess(atauAdministrator) izin halaman kepada pengguna RAM untuk mengizinkan operasi tulis di halaman Pengamatan Model.Berikan kebijakan sistem AliyunCloudMonitorFullAccess kepada pengguna RAM.
Buat dan berikan kebijakan sistem yang mengizinkan pengguna RAM membuat peran terkait layanan.
Masuk ke Konsol RAM. Di panel navigasi kiri, pilih . Lalu, klik Create Policy.
Klik JSON, tempel konten berikut ke editor kebijakan, lalu klik OK.
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }Masukkan
CreateServiceLinkedRolesebagai nama kebijakan akses dan klik OK.Di panel navigasi kiri, pilih . Temukan pengguna RAM yang ingin Anda otorisasi dan klik Add Permissions di kolom Actions.
Dari daftar kebijakan akses, pilih kebijakan akses yang baru saja Anda buat (CreateServiceLinkedRole) dan klik Grant permissions. Pengguna RAM sekarang memiliki izin untuk membuat peran terkait layanan.
Setelah menyelesaikan semua konfigurasi izin di atas, kembali ke halaman Pengamatan Model (Singapura atau Beijing), lalu gunakan Pengguna RAM untuk mencoba mengaktifkan Advanced Monitoring lagi.
Lampiran
Glosarium
Istilah | Deskripsi |
Real-time Inference | Semua panggilan langsung dan tidak langsung ke model, mencakup skenario berikut:
|
Batch Inference | Pemrosesan data offline berskala besar menggunakan antarmuka Batch kompatibel OpenAI untuk skenario yang tidak memerlukan respons real-time. |
