Gunakan Pemantauan Model untuk:
Menampilkan catatan panggilan.
Memantau dan mengatur notifikasi untuk metrik seperti Time to First Token (TTFT), durasi panggilan, Requests Per Minute (RPM), Tokens Per Minute (TPM), dan laju kegagalan.
Memantau konsumsi token.
Model yang didukung
Pemantauan Dasar: Mendukung semua model dalam Daftar model. Pemantauan Lanjutan: Mendukung semua model di Wilayah China (Beijing), Singapura, dan AS (Virginia).
Notifikasi: Mendukung semua model di Wilayah China (Beijing) dan Singapura.
Pencatatan Log: Mendukung model-model berikut:
Beijing
qwen3-max, qwen3-max-2025-09-23, qwen3-max-2026-01-23, qwen3-max-preview
qwen-max, qwen-max-0919, qwen-max-2025-01-25, qwen-max-latest
qwen-plus, qwen-plus-2025-04-28, qwen-plus-2025-07-14, qwen-plus-2025-07-28, qwen-plus-2025-09-11, qwen-plus-2025-12-01, qwen-plus-latest
qwen-flash, qwen-flash-2025-07-28
qwen-turbo, qwen-turbo-2025-07-15, qwen-turbo-2025-04-28, qwen-turbo-latest
deepseek-v3.1, deepseek-v3.2, deepseek-v3.2-exp
qwen3-235b-a22b, qwen3-235b-a22b-instruct-2507, qwen3-235b-a22b-thinking-2507, qwen3-30b-a3b, qwen3-30b-a3b-instruct-2507, qwen3-30b-a3b-thinking-2507, qwen3-next-80b-a3b-instruct, qwen3-next-80b-a3b-thinking
qwen3-coder-480b-a35b-instruct, qwen3-coder-flash, qwen3-coder-flash-2025-07-28, qwen3-coder-plus, qwen3-coder-plus-2025-07-22, qwen3-coder-plus-2025-09-23
Singapura
qwen3-max, qwen3-max-2025-09-23, qwen3-max-2026-01-23, qwen3-max-preview
qwen-max, qwen-max-2025-01-25, qwen-max-latest
qwen-plus, qwen-plus-2025-04-28, qwen-plus-2025-07-14, qwen-plus-2025-07-28, qwen-plus-2025-09-11, qwen-plus-2025-12-01, qwen-plus-latest
qwen-flash, qwen-flash-2025-07-28
qwen-turbo, qwen-turbo-2025-04-28, qwen-turbo-latest
qwen3-235b-a22b, qwen3-235b-a22b-instruct-2507, qwen3-235b-a22b-thinking-2507, qwen3-30b-a3b, qwen3-30b-a3b-instruct-2507, qwen3-30b-a3b-thinking-2507, qwen3-next-80b-a3b-instruct, qwen3-next-80b-a3b-thinking
qwen3-coder-480b-a35b-instruct, qwen3-coder-flash, qwen3-coder-flash-2025-07-28, qwen3-coder-plus, qwen3-coder-plus-2025-07-22, qwen3-coder-plus-2025-09-23
Memantau eksekusi model
Sistem secara otomatis mengumpulkan data panggilan model dari semua Workspace di bawah akun utama Anda. Ketika terjadi panggilan model langsung atau tidak langsung, sistem menyinkronkan data tersebut ke daftar Pemantauan Model di Workspace target.
Catatan dikelompokkan berdasarkan model dan Workspace. Model baru akan muncul dalam daftar setelah sinkronisasi data awal. Pemantauan dasar memiliki latensi data per jam. Untuk wawasan data tingkat menit, gunakan Pemantauan Lanjutan.
Anggota Workspace default dapat melihat data panggilan model di seluruh Workspace. Anggota sub-workspace hanya dapat melihat data untuk Workspace mereka saat ini dan tidak dapat beralih ke Workspace lain.
Temukan model target dalam daftar lalu klik Actions > Monitor untuk melihat metrik berikut:
Keamanan: Mendeteksi pelanggaran kebijakan konten, seperti
Content Moderation Error Count.Biaya: Mengevaluasi efisiensi biaya, seperti
Average Usage per Request.Kinerja: Melacak perubahan kinerja, seperti
Call DurationdanTime to First Token (TTFT).Error: Menilai stabilitas model, seperti
Failure CountdanFailure Rate.
Anda dapat membuat Notifikasi berdasarkan metrik ini untuk segera mendeteksi dan menangani anomali.
Statistik Panggilan
Tab ini menampilkan metrik Keamanan, Biaya, dan Error, seperti Jumlah Panggilan dan Jumlah Kegagalan. Anda dapat memfilter berdasarkan API Key, Inference Type, dan rentang waktu.
Rate Limiting Error Count: Kegagalan panggilan yang disebabkan oleh kode status 429.
Content Moderation Error Count: Menghitung jumlah kali Layanan Moderasi Konten memblokir input atau output yang mengandung konten sensitif atau berisiko tinggi yang dicurigai (seperti konten dewasa, konten politik, atau iklan).
Metrik Kinerja
Tab ini menampilkan metrik Kinerja seperti RPM, TPM, Call Duration, dan Time to First Token (TTFT).
Konsumsi token
Menyesuaikan Parameters atau prompt sistem suatu model akan mengubah konsumsi tokennya. Untuk membantu Anda melacak dan mengelola biaya, Pemantauan Model menyediakan fitur-fitur berikut:
Rangkuman: Mengagregasi konsumsi token historis berdasarkan Model dan Workspace. Anda juga dapat memfilter berdasarkan rentang waktu dan API Key.
Pelacakan: Mencatat konsumsi token untuk setiap Panggilan Model.
Notifikasi: Mengatur ambang batas konsumsi dan mengirim Notifikasi ketika suatu Model melebihi ambang tersebut.
Konsumsi token historis
Untuk melihat konsumsi token selama 30 hari terakhir:
Ketika model muncul dalam daftar Pemantauan Model untuk workspace tujuan, klik Monitor pada kolom Actions.
Pada tab Call Statistics, lihat data konsumsi token di bagian Calls.
Untuk melihat Penggunaan sebelumnya, periksa halaman Biaya dan Pengeluaran.
Konsumsi token untuk satu panggilan model
Fitur ini saat ini hanya tersedia untuk beberapa Model di wilayah China (Beijing).
Masuk dengan Akun Alibaba Cloud Anda (atau Pengguna RAM dengan izin yang cukup). Di halaman Pemantauan Model (Beijing) di Workspace target, klik Monitoring Configuration di pojok kanan atas dan ikuti petunjuk untuk mengaktifkan Audit Log dan Inference Log.
Setelah diaktifkan, sistem mencatat input dan output setiap Panggilan Model di Workspace tersebut. Log mungkin memerlukan beberapa menit untuk muncul setelah Panggilan Model dilakukan.
Temukan Model target dalam daftar Pemantauan Model lalu klik Logs pada kolom Actions.
Tab Logs menampilkan catatan panggilan inferensi real-time untuk Model tersebut. Bidang Usage menunjukkan konsumsi token untuk panggilan tersebut.
Notifikasi konsumsi abnormal
Lihat Atur notifikasi proaktif.
Riwayat percakapan (log model)
Fitur ini saat ini hanya tersedia untuk beberapa model di wilayah China (Beijing).
Pemantauan Model mencatat setiap percakapan model, termasuk input, output, dan durasinya, sehingga menyediakan data penting untuk troubleshooting dan auditing konten.
Langkah 1: Aktifkan pencatatan log
Masuk dengan akun Alibaba Cloud (atau pengguna RAM dengan izin yang cukup). Di workspace target, buka halaman Monitoring (Beijing), klik Monitoring Configuration di pojok kanan atas, lalu ikuti petunjuk untuk mengaktifkan audit logs dan inference logs.
Setelah Anda mengaktifkan pencatatan log, sistem akan mencatat input dan output setiap panggilan model di workspace tersebut. Diperlukan waktu hingga beberapa menit agar log-log ini muncul.
Untuk menghentikan pencatatan, nonaktifkan inference logs di Monitoring Configuration.
Langkah 2: Lihat riwayat percakapan
Dalam daftar Pemantauan Model, temukan model target lalu klik Logs pada kolom Actions.
Tab Logs menampilkan catatan panggilan inferensi real-time untuk model tersebut. Bidang Request and Response berisi input dan output setiap panggilan.
Atur notifikasi proaktif
Fitur ini saat ini hanya tersedia di wilayah Singapura dan China (Beijing).
Kegagalan diam model, seperti timeout dan lonjakan tiba-tiba dalam konsumsi token, sulit dideteksi dengan log aplikasi tradisional. Pemantauan Model memungkinkan Anda mengatur notifikasi untuk metrik seperti biaya, laju kegagalan, dan latensi respons. Saat suatu metrik menjadi abnormal, sistem segera mengirimkan notifikasi.
Langkah 1: Aktifkan pemantauan lanjutan
Masuk dengan akun Alibaba Cloud Anda (atau Pengguna RAM dengan izin yang cukup) dan buka halaman Monitoring (Singapura atau China (Beijing)) di workspace target. Klik Monitoring Configuration di pojok kanan atas.
Pada bagian Pemantauan Lanjutan, aktifkan Performance and usage metrics monitoring.
Langkah 2: Buat aturan notifikasi
Di halaman Alerts (Singapura atau China (Beijing)), klik Create Alert Rule di pojok kanan atas.
Dalam kotak dialog, pilih model dan templat pemantauan, lalu klik Create. Sistem kemudian akan memberi tahu tim Anda setiap kali metrik tertentu, seperti statistik panggilan atau metrik kinerja, menjadi abnormal.
Metode Notifikasi: Metode yang didukung meliputi Pesan Teks, Email, Telepon, Robot Grup DingTalk, Robot WeCom, dan Webhook.
Tingkat Notifikasi: Terdapat empat tingkat yang telah ditentukan dan tidak dapat dikustomisasi: General, Warning, Error, dan Urgent. Setiap tingkat dipetakan ke saluran notifikasi tertentu:
Critical: Telepon, Pesan Teks, Email
Error: Pesan Teks, Email
Warning: Pesan Teks, Email
Info: Email
Integrasi dengan Grafana dan aplikasi kustom
Pemantauan Model menyimpan metrik pemantauan di instans CloudMonitor Prometheus pribadi Anda. Instans ini mendukung API HTTP Prometheus standar, yang memungkinkan Anda menghubungkannya ke Grafana atau aplikasi kustom Anda untuk visualisasi dan analisis data.
Langkah 1: Dapatkan alamat API HTTP
Pastikan Anda telah mengaktifkan Pemantauan Lanjutan.
Di halaman Pemantauan Model (Singapura), Pemantauan Model (Virginia), atau Pemantauan Model (Beijing), klik Monitoring Configuration di pojok kanan atas. Di samping instans CloudMonitor Prometheus, klik View Details.
Di halaman Settings, salin alamat API HTTP untuk lingkungan jaringan klien Anda (Jaringan Publik atau Akses VPC).

Langkah 2: Hubungkan ke Grafana atau aplikasi kustom
Aplikasi kustom
Contoh berikut menunjukkan cara mengambil data pemantauan menggunakan API HTTP Prometheus. Untuk penggunaan API lengkap, lihat dokumentasi API HTTP Prometheus.
Contoh 1: Kueri konsumsi token untuk semua model di seluruh Workspace dalam satu Akun Alibaba Cloud untuk rentang waktu tertentu (sepanjang hari 20 November 2025, UTC). Kuerinya adalah
model_usage, dan interval langkahnya adalah60s.Contoh
Deskripsi
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query: Nilai
querydapat diganti dengan metrik apa pun dari daftar Metrik Pemantauan di bawah ini.HTTP API: Ganti
{HTTP API}dengan alamat API HTTP yang Anda peroleh di Langkah 1.Otorisasi: Gabungkan AccessKey dan AccessKey Secret akun Alibaba Cloud Anda, pisahkan dengan tanda titik dua (diformat sebagai
AccessKey:AccessKey Secret). Kemudian, encode string tersebut dalam Base64 dan berikan dalam formatBasic <encoded_string>.Nilai contoh: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
Catatan: AccessKey dan AccessKey Secret harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.
Contoh 2: Berdasarkan Contoh 1, contoh ini menambahkan filter untuk mengambil konsumsi token hanya untuk model tertentu (
qwen-plus) di Workspace tertentu (llm-nymssti2mzww****).Contoh
Deskripsi
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query: Masukkan beberapa kondisi filter dalam
{}dan pisahkan dengan koma, misalnya:{workspace_id="value1",model="value2"}. Tabel berikut mencantumkan kondisi filter yang didukung (LabelKeys).
Grafana
Anda dapat menambahkan Pemantauan Model sebagai sumber data di Grafana (baik yang dikelola sendiri maupun Managed Service for Grafana). Contoh ini menggunakan Grafana 10.x (versi bahasa Inggris). Prosedurnya serupa untuk versi lainnya. Untuk informasi lebih lanjut, lihat dokumentasi resmi Grafana.
Tambahkan sumber data:
Masuk ke Grafana dengan akun administrator. Klik ikon hamburger
di pojok kiri atas lalu pilih . Klik + Add new data source lalu pilih Prometheus sebagai jenis sumber data.Pada tab Settings, konfigurasikan sumber data:
Name: Masukkan nama kustom.
Prometheus server URL: Masukkan alamat API HTTP yang Anda peroleh di Langkah 1.
Auth: Aktifkan Basic auth lalu atur User ke AccessKey akun Alibaba Cloud Anda dan Password ke AccessKey Secret-nya.
AccessKey dan AccessKey Secret harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.

Klik Save & Test di bagian bawah halaman.
Metrik Kueri:
Klik ikon hamburger
di pojok kiri atas halaman Grafana, lalu klik Dashboards di panel navigasi kiri.Di halaman Dashboards, klik di sebelah kanan untuk membuat dasbor baru.
Klik + Add visualization lalu pilih sumber data yang baru saja Anda buat.
Di halaman Edit Panel, klik tab Query. Di bagian A, gunakan bidang Label filters untuk memilih __name__ dan nama metrik yang diinginkan. Contoh berikut menunjukkan cara mengkueri metrik konsumsi token
model_usage:Contoh
Deskripsi

Pada gambar, nilai
__name__(model_usage) dapat diganti dengan metrik apa pun dari daftar Metrik Pemantauan berikut.Tambahkan filter label berikut untuk mempersempit kueri Anda lebih lanjut:
Klik Run queries untuk menjalankan kueri.
Jika grafik menampilkan data, konfigurasi Anda sudah benar. Jika tidak, pastikan: 1) Alamat API HTTP, AccessKey, dan AccessKey Secret sudah benar. 2) Instans Prometheus dari Langkah 1 berisi data pemantauan.
Perbandingan mode pemantauan
Pemantauan model menawarkan dua mode: Basic Monitoring dan Advanced Monitoring.
Basic Monitoring: Secara otomatis diaktifkan saat Anda mengaktifkan Model Studio dan tidak dapat dinonaktifkan.
Advanced Monitoring: Memerlukan aktivasi manual oleh akun Alibaba Cloud (atau pengguna RAM dengan izin yang cukup) di halaman Monitoring (Singapura), Monitoring (Virginia), atau Monitoring (Beijing) di workspace target. Anda dapat menonaktifkan Pemantauan Lanjutan kapan saja. Data hanya direkam setelah aktivasi.
Item | Basic Monitoring (Default) | Advanced Monitoring (Aktivasi manual) | |
Latensi data | Per jam | Tingkat menit | |
Statistik panggilan | Didukung | Didukung | |
Detail panggilan gagal | Tidak didukung | Didukung | |
Metrik kinerja | Didukung | Didukung | |
Cakupan | Semua workspace dalam akun Alibaba Cloud | Hanya berlaku untuk workspace yang diaktifkan | |
Penagihan | Gratis | Berbayar | |
Kuota dan batasan
Periode retensi data: Data untuk Pemantauan Dasar dan Lanjutan disimpan selama 30 hari secara default. Untuk mengkueri data penggunaan yang lebih lama, buka halaman Biaya dan Pengeluaran.
Batas templat notifikasi: Anda dapat membuat hingga 100 templat notifikasi untuk setiap Workspace.
Batas API: Anda dapat mengkueri Metrik Pemantauan dengan API HTTP Prometheus.
Alternatif: Untuk mengambil konsumsi token dari satu panggilan API, ekstrak data dari bidang
usagedalam tanggapan. Struktur bidangnya sebagai berikut (untuk detail, lihat referensi API Qwen):{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
Penagihan
Pemantauan Dasar: Gratis.
Pemantauan Lanjutan: Saat diaktifkan, data pemantauan tingkat menit ditulis ke Cloud Monitor (CMS) dan dikenakan biaya. Untuk informasi lebih lanjut, lihat penagihan Cloud Monitor.
Inference Logs: Saat diaktifkan, data log tingkat menit ditulis ke Simple Log Service (SLS) dan dikenakan biaya. Untuk informasi lebih lanjut, lihat penagihan Simple Log Service.
FAQ
Mengapa data jumlah panggilan dan konsumsi token tidak terlihat di Pemantauan Model?
Periksa kemungkinan masalah berikut:
Latensi data: Pastikan waktu yang cukup telah berlalu untuk sinkronisasi data. Pemantauan Dasar memiliki latensi data tingkat jam, sedangkan Pemantauan Lanjutan memiliki latensi tingkat menit.
Cakupan Workspace: Jika Anda berada di workspace tertentu, Anda hanya dapat melihat data untuk cakupan tersebut. Beralihlah ke workspace default untuk melihat semua data.
Apa yang dapat menyebabkan error timeout saat memanggil model bahasa besar?
Penyebab umum meliputi:
Generasi respons yang lama: Model membutuhkan waktu terlalu lama untuk menghasilkan respons lengkap, melebihi batas timeout klien. Pertimbangkan untuk menggunakan Streaming Output agar menerima token pertama lebih cepat.
Masalah jaringan: Pastikan koneksi jaringan antara klien Anda dan layanan Alibaba Cloud stabil.
Bagaimana cara mengonfigurasi izin untuk Pengguna RAM agar dapat mengaktifkan Pemantauan Lanjutan?
Ikuti langkah-langkah berikut:
Lampirkan
AliyunBailianFullAccessKebijakan ke pengguna RAM.Berikan role
Model Monitoring – Operations(atauAdministrator) kepada Pengguna RAM untuk mengizinkan operasi tulis di halaman Pemantauan Model.Hubungkan Kebijakan Sistem AliyunCloudMonitorFullAccess ke Pengguna RAM tersebut.
Buat dan hubungkan kebijakan kustom yang mengizinkan Pengguna RAM untuk membuat Service-Linked Role.
Masuk ke konsol RAM. Di panel navigasi, pilih , lalu klik Create Policy.
Klik tab JSON, tempel dokumen kebijakan berikut ke editor, lalu klik OK.
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }Masukkan
CreateServiceLinkedRolesebagai nama kebijakan lalu klik OK.Di panel navigasi kiri, pilih . Di halaman tersebut, temukan Pengguna RAM target lalu klik Add Permission di kolom Actions untuk pengguna tersebut.
Dari daftar Policies, pilih kebijakan
CreateServiceLinkedRoleyang baru saja Anda buat, lalu klik Grant permissions.
Setelah mengonfigurasi izin ini, kembali ke halaman Monitoring ((ap-southeast-1) Singapura), Monitoring ((US-East-1) Virginia), atau Monitoring (Beijing) lalu coba lagi mengaktifkan Advanced Monitoring.
Bagaimana cara mengonfigurasi izin untuk Pengguna RAM agar dapat mengaktifkan Inference Logs?
Ikuti langkah-langkah berikut:
Hubungkan kebijakan
AliyunBailianFullAccesskebijakan ke Pengguna RAM tersebut.Berikan role
Model Monitoring – Operations(atauAdministrator) kepada Pengguna RAM untuk mengizinkan operasi tulis di halaman Pemantauan Model.Hubungkan Kebijakan Sistem AliyunLogFullAccess ke Pengguna RAM tersebut.
Buat dan hubungkan kebijakan kustom yang mengizinkan Pengguna RAM untuk membuat Service-Linked Role.
Masuk ke konsol RAM. Di panel navigasi, pilih , lalu klik Create Policy.
Klik tab JSON, tempel dokumen kebijakan berikut ke editor, lalu klik OK.
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }Masukkan
CreateServiceLinkedRolesebagai nama kebijakan lalu klik OK.Di panel navigasi, pilih . Temukan Pengguna RAM target lalu klik Add Permission di kolom Actions.
Dari daftar Policies, pilih kebijakan
CreateServiceLinkedRoleyang baru saja Anda buat, lalu klik Grant permissions.
Setelah mengonfigurasi izin ini, kembali ke halaman Monitoring (Beijing) lalu coba lagi mengaktifkan Inference Logs.
Lampiran
Glosarium
Istilah | Deskripsi |
Setiap panggilan model—langsung maupun tidak langsung—yang memerlukan respons interaktif segera. Kasus penggunaan meliputi:
| |
Batches | Pemrosesan data skala besar secara asinkron untuk permintaan yang tidak sensitif terhadap latensi. Anda dapat mengirimkan pekerjaan inferensi batch menggunakan API Batch kompatibel OpenAI (input file). |
