全部产品
Search
文档中心

Alibaba Cloud Model Studio:Pengamatan model

更新时间:Nov 28, 2025

Gunakan fitur pengamatan model untuk melakukan operasi berikut:

  • Lihat catatan panggilan

  • Pantau dan buat peringatan untuk metrik, seperti latensi token, durasi panggilan, permintaan per menit (RPM), token per menit (TPM), dan laju kegagalan

  • Lacak konsumsi token

Ketersediaan model

Semua model dalam Daftar model didukung.

Pantau operasi model

Setelah Anda mengaktifkan layanan inferensi model, Alibaba Cloud Model Studio secara otomatis menambahkan empat kategori metrik pemantauan berikut ke dasbor Pengamatan Model:

  • Keamanan: Mengidentifikasi konten yang tidak sesuai dalam percakapan, seperti kesalahan Moderasi Konten.

  • Biaya: Mengevaluasi efektivitas biaya model, seperti rata-rata token per permintaan.

  • Kinerja: Mengamati perubahan kinerja model, seperti durasi panggilan dan waktu hingga token pertama.

  • Kesalahan: Menentukan stabilitas model, seperti kegagalan dan laju kegagalan.

Anda dapat membuat peringatan berdasarkan metrik di atas untuk segera mendeteksi dan menangani anomali.

Langkah 1: Aktifkan layanan inferensi model

  1. Jika pesan berikut ditampilkan di bagian atas Konsol Model Studio, gunakan Akun Alibaba Cloud Anda untuk mengaktifkan layanan dan mendapatkan kuota panggilan gratis. Jika pesan tersebut tidak muncul, berarti layanan sudah diaktifkan.

    image

  2. Setelah diaktifkan, sistem secara otomatis mengumpulkan data panggilan model dari semua ruang kerja di bawah akun Alibaba Cloud Anda. Saat terjadi panggilan model langsung atau tidak langsung, sistem akan mengumpulkan dan menyinkronkan data terkait ke daftar Pengamatan Model (Singapura atau Beijing).

    Catatan daftar dibuat berdasarkan model dan ruang kerja. Model baru akan ditambahkan secara otomatis ke daftar setelah sinkronisasi data pertama selesai. Latensi untuk Pemantauan Dasar biasanya dalam skala jam. Untuk wawasan data tingkat menit, gunakan Pemantauan Lanjutan.
    Anggota ruang kerja default dapat melihat detail panggilan model untuk semua ruang kerja. Anggota sub-ruang kerja hanya dapat melihat data untuk ruang kerja saat ini dan tidak dapat beralih untuk melihat data dari ruang kerja lain.

Langkah 2: Lihat metrik pemantauan

  1. Saat model muncul dalam daftar, klik Monitor di kolom Actions untuk melihat Call Statistics, seperti jumlah panggilan dan jumlah kegagalan. Filter statistik berdasarkan Kunci API, Jenis Inferensi, dan rentang waktu.

    • Kesalahan batas laju: Mengacu pada kegagalan dengan kode status 429.

    • Kesalahan Moderasi Konten: Mengacu pada panggilan yang dicegat oleh layanan Moderasi Konten karena input atau output mengandung konten sensitif atau berisiko tinggi yang dicurigai, seperti pornografi, konten politik, atau iklan.

  2. Pada tab Performance Metrics, Anda dapat melihat metrik seperti RPM, TPM, durasi panggilan, dan waktu hingga token pertama.

Lihat konsumsi token

Dalam praktiknya, penyesuaian parameter model, prompt sistem, dan operasi lainnya dapat mengubah konsumsi token model. Untuk menghitung dan mengelola biaya dengan kontrol detail halus, Pengamatan Model menyediakan fitur pemantauan biaya berikut:

  • Rangkuman: Merangkum konsumsi token historis model berdasarkan ruang kerja. Anda dapat memfilter lebih lanjut berdasarkan rentang waktu dan Kunci API.

  • Peringatan: Memungkinkan Anda menetapkan ambang batas konsumsi token. Sistem segera mengirim peringatan ketika model tertentu menunjukkan konsumsi yang tidak normal.

Langkah 1: Aktifkan layanan inferensi model

Pastikan Anda telah mengaktifkan layanan model.

Langkah 2: Lihat konsumsi token atau buat peringatan

  • Lihat konsumsi token historis suatu model:

    • Lihat konsumsi token selama 30 hari terakhir:

      1. Saat model muncul dalam daftar Pengamatan Model (Singapura atau Beijing), klik Monitor pada kolom Actions.

      2. Pada tab Call Statistics, lihat data konsumsi token di bagian Calls.

    • Untuk melihat data penggunaan yang lebih lama, kueri data di halaman Biaya dan Pengeluaran.

  • Buat peringatan untuk konsumsi tidak normal:

Buat peringatan proaktif

Kegagalan diam model, seperti timeout atau lonjakan tiba-tiba dalam konsumsi token, sulit dideteksi dengan log aplikasi tradisional. Pengamatan Model memungkinkan Anda menetapkan peringatan untuk metrik pemantauan seperti biaya, laju kegagalan, dan latensi respons. Jika suatu metrik menjadi tidak normal, sistem segera mengirim peringatan.

Langkah 1: Aktifkan Pemantauan Lanjutan

  1. Pastikan Anda telah mengaktifkan layanan inferensi model.

  2. Masuk dengan akun Alibaba Cloud (atau Pengguna RAM dengan izin yang cukup). Pada halaman Pengamatan Model (Singapura atau Beijing) untuk ruang kerja target, klik Model Observation Configurations di pojok kanan atas.

  3. Di area Pemantauan Lanjutan, Anda dapat mengaktifkan secara manual Performance and Usage Metrics Monitoring.

Langkah 2: Buat aturan peringatan

  1. Di halaman Peringatan Model (Singapura atau Beijing), klik Create Alert Rule di pojok kanan atas.

  2. Dalam kotak dialog, pilih model dan templat pemantauan, lalu klik Create. Jika metrik pemantauan yang ditentukan (seperti statistik panggilan atau metrik kinerja) menjadi tidak normal, sistem akan memberi tahu tim Anda.

    • Metode notifikasi: Metode yang didukung meliputi pesan teks, email, panggilan telepon, robot grup DingTalk, robot WeCom, dan Webhook.

    • Tingkat peringatan: Tingkat yang tersedia adalah General, Warning, Error, dan Urgent. Tingkat-tingkat ini telah ditentukan sebelumnya dan tidak dapat diubah. Metode notifikasi sama untuk semua tingkat. Kami menyarankan agar Anda menetapkan prosedur penanganan yang konsisten dalam tim Anda.

Hubungkan ke Grafana atau aplikasi kustom

Data metrik pemantauan dari Pengamatan Model disimpan dalam instans Prometheus pribadi Anda. Data ini mendukung API HTTP Prometheus standar, yang dapat Anda gunakan untuk menghubungkan ke Grafana atau aplikasi kustom Anda guna analisis visual.

Langkah 1: Dapatkan alamat API HTTP sumber data

  1. Pastikan Anda telah mengaktifkan Pemantauan Lanjutan.

  2. Di halaman Model Observation (Singapura atau Beijing), klik Model Observation Configurations di sudut kanan atas, lalu klik View Details di sebelah kanan instans CloudMonitor Prometheus.

  3. Pada tab Settings, salin URL API HTTP yang sesuai dengan lingkungan jaringan klien Anda, Internet atau Jaringan Internal (VPC).

    1

Langkah 2: Hubungkan ke Grafana atau aplikasi kustom

Hubungkan ke aplikasi kustom

Contoh berikut menunjukkan cara mengambil data pemantauan menggunakan API HTTP Prometheus. Untuk detail penggunaan API lengkap, lihat referensi API HTTP Prometheus.

  • Contoh 1: Kueri konsumsi token (query=model_usage) untuk semua model di semua ruang kerja di bawah Akun Alibaba Cloud Anda dalam rentang waktu tertentu (sepanjang hari 20 November 2025, UTC), dengan ukuran langkah step=60s.

    Contoh

    Deskripsi parameter

    GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query: Nilai query dapat diganti dengan nama metrik apa pun dari daftar Monitoring metrics di bawah ini.

      Lihat metrik pemantauan

      Jenis

      Nama metrik

      Deskripsi

      Jumlah panggilan

      model_call_count

      Total jumlah panggilan model

      Durasi panggilan

      model_call_duration_total

      Total durasi panggilan model

      model_call_duration

      Rata-rata durasi panggilan model

      model_call_duration_p50

      Latensi p50 panggilan model

      model_call_duration_p99

      Latensi p99 panggilan model

      model_first_token_duration_total

      Total waktu hingga token pertama

      model_first_token_duration

      Rata-rata waktu hingga token pertama

      model_first_token_duration_p50

      Waktu p50 hingga token pertama

      model_first_token_duration_p99

      Waktu p99 hingga token pertama

      Waktu per token non-pertama

      model_generation_duration_per_token_total

      Total waktu per token non-pertama

      model_generation_duration_per_token

      Rata-rata waktu per token non-pertama

      model_generation_duration_per_token_p50

      Waktu p50 per token non-pertama

      model_generation_duration_per_token_p99

      Waktu p99 per token non-pertama

      Penggunaan

      model_usage

      Total penggunaan model

    • HTTP API: Ganti {HTTP API} dengan alamat API HTTP yang Anda peroleh di Langkah 1.

    • Otorisasi: Gabungkan AccessKey:AccessKeySecret Akun Alibaba Cloud Anda, encode string hasilnya dengan Base64, dan berikan dalam format Basic <string-encoded>.

      Nilai contoh: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
      Catatan: AccessKey dan Rahasia AccessKey harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.
  • Contoh 2: Berdasarkan Contoh 1, tambahkan filter untuk mengambil konsumsi token hanya untuk model tertentu (model=qwen-plus) di ruang kerja tertentu (workspace_id=llm-nymssti2mzww****).

    Contoh

    Deskripsi

    GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query: Masukkan beberapa kondisi filter dalam {} dan pisahkan dengan koma. Contoh: {workspace_id="value1",model="value2"}. Berikut adalah kondisi filter yang didukung (LabelKey).

      Lihat kondisi filter yang didukung

      LabelKey

      Deskripsi

      user_id

      ID Akun Alibaba Cloud.

      Untuk pengguna RAM, ini adalah UID akun utama. Untuk informasi selengkapnya, lihat cara mendapatkan ID

      apikey_id

      ID kunci API, bukan kunci API itu sendiri. Anda dapat memperoleh ID ini dari halaman Key Management(Edisi Internasional | Edisi Tiongkok Daratan).

      56

      Catatan

      Nilai -1 untuk apikey_id menunjukkan bahwa panggilan berasal dari konsol Model Studio, bukan melalui panggilan API.

      workspace_id

      ID ruang kerja. Pelajari cara mendapatkan ID.

      model

      Model.

      protocol

      Jenis Protokol. Nilai yang valid adalah:

      • HTTP: HTTP non-streaming.

      • SSE: HTTP streaming.

      • WS: Protokol WebSocket.

      sub_protocol

      Sub-protokol. Nilai yang valid adalah:

      • DEFAULT: Panggilan sinkron.

      • ASYNC: Panggilan asinkron.

        Ini umum untuk model generasi citra. Untuk informasi selengkapnya, lihat Generasi teks-ke-citra

      status_code

      Kode status HTTP.

      LabelKey ini hanya didukung oleh metrik pemantauan model_call_count.

      error_code

      Kode kesalahan.

      LabelKey ini hanya didukung oleh metrik pemantauan model_call_count.

      usage_type

      Jenis penggunaan.

      LabelKey ini hanya didukung oleh metrik pemantauan model_usage.

      Nilai yang mungkin:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

Hubungkan ke Grafana

Tambahkan sumber data pengamatan model di Grafana (self-hosted atau layanan Grafana Alibaba Cloud). Topik ini menggunakan Grafana 10.x (versi Bahasa Inggris) sebagai contoh. Langkah-langkah untuk versi lain serupa. Untuk informasi lebih lanjut, lihat dokumentasi resmi Grafana.

  1. Tambahkan sumber data:

    1. Masuk ke Grafana menggunakan akun administrator. Klik ikon image di pojok kiri atas halaman dan pilih Administration > Data sources. Klik + Add new data source. Untuk jenis sumber data, pilih Prometheus.

    2. Pada tab Settings, konfigurasikan informasi sumber data:

      • Name: Masukkan nama kustom.

      • Prometheus server URL: Masukkan alamat API HTTP yang Anda peroleh di Langkah 1.

      • Auth: Aktifkan Basic auth, dan atur User (Akun Alibaba Cloud Anda AccessKey) dan Password (Akun Alibaba Cloud Anda Rahasia AccessKey).

        AccessKey dan Rahasia AccessKey harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.

      image

    3. Klik Save & Test di bagian bawah tab.

  2. Kueri metrik:

    1. Klik ikon image di pojok kiri atas halaman Grafana dan, di panel navigasi kiri, klik Dashboards.

    2. Klik New > New dashboard di sisi kanan halaman Dashboards untuk membuat dasbor baru.

    3. Klik + Add visualization dan pilih sumber data yang baru saja Anda buat.

    4. Pada halaman Edit Panel, klik tab Query. Di area A, pilih _name_ dan nama metrik di bidang Label filters. Misalnya, untuk mengkueri konsumsi token model model_usage:

      Contoh

      Deskripsi

      image

      Dalam contoh ini, nilai _name_ (model_usage) dapat diganti dengan nama metrik apa pun dari daftar Monitoring metrics.

      Lihat metrik pemantauan

      Jenis

      Nama metrik

      Deskripsi

      Jumlah panggilan

      model_call_count

      Total jumlah panggilan model

      Durasi panggilan

      model_call_duration_total

      Total durasi panggilan model

      model_call_duration

      Rata-rata durasi panggilan model

      model_call_duration_p50

      Latensi p50 panggilan model

      model_call_duration_p99

      Latensi p99 panggilan model

      model_first_token_duration_total

      Total waktu hingga token pertama

      model_first_token_duration

      Rata-rata waktu hingga token pertama

      model_first_token_duration_p50

      Waktu p50 hingga token pertama

      model_first_token_duration_p99

      Waktu p99 hingga token pertama

      Waktu per token non-pertama

      model_generation_duration_per_token_total

      Total waktu per token non-pertama

      model_generation_duration_per_token

      Rata-rata waktu per token non-pertama

      model_generation_duration_per_token_p50

      Waktu p50 per token non-pertama

      model_generation_duration_per_token_p99

      Waktu p99 per token non-pertama

      Penggunaan

      model_usage

      Total penggunaan model

      Anda dapat menambahkan filter label berikut untuk mempersempit kueri lebih lanjut:

      Lihat kondisi filter yang didukung

      LabelKey

      Deskripsi

      user_id

      ID Akun Alibaba Cloud.

      Untuk pengguna RAM, ini adalah UID akun utama. Untuk informasi selengkapnya, lihat cara mendapatkan ID

      apikey_id

      ID kunci API, bukan kunci API itu sendiri. Anda dapat memperoleh ID ini dari halaman Key Management(Edisi Internasional | Edisi China Daratan).

      56

      Catatan

      Nilai -1 untuk apikey_id menunjukkan bahwa panggilan berasal dari konsol Model Studio, bukan melalui panggilan API.

      workspace_id

      ID ruang kerja. Pelajari cara mendapatkan ID.

      model

      Model.

      protocol

      Jenis Protokol. Nilai yang valid adalah:

      • HTTP: HTTP non-streaming.

      • SSE: HTTP streaming.

      • WS: Protokol WebSocket.

      sub_protocol

      Sub-protokol. Nilai yang valid adalah:

      • DEFAULT: Panggilan sinkron.

      • ASYNC: Panggilan asinkron.

        Ini umum untuk model generasi citra. Untuk informasi selengkapnya, lihat Generasi teks-ke-citra

      status_code

      Kode status HTTP.

      LabelKey ini hanya didukung oleh metrik pemantauan model_call_count.

      error_code

      Kode kesalahan.

      LabelKey ini hanya didukung oleh metrik pemantauan model_call_count.

      usage_type

      Jenis penggunaan.

      LabelKey ini hanya didukung oleh metrik pemantauan model_usage.

      Nilai yang mungkin:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

    5. Klik Run queries.

      Jika data berhasil dirender dalam grafik, konfigurasi berhasil. Jika tidak, periksa hal berikut: 1) Alamat API HTTP, AccessKey, dan Rahasia AccessKey benar. 2) Instans Prometheus dari Langkah 1 berisi data pemantauan.

Bandingkan mode pemantauan

Pengamatan model menyediakan dua mode pemantauan: Basic Monitoring dan Advanced Monitoring.

Basic Monitoring: Layanan dasar ini diaktifkan secara otomatis saat layanan model diaktifkan dan tidak dapat dinonaktifkan.
Advanced Monitoring: Harus diaktifkan secara manual oleh akun Alibaba Cloud atau Pengguna RAM dengan izin yang cukup di halaman Pengamatan Model (Singapore atau Beijing) ruang kerja target. Fitur ini dapat dinonaktifkan. Hanya data panggilan yang dihasilkan setelah fitur ini diaktifkan yang dicatat.

Item

Basic Monitoring (Default)

Advanced Monitoring (Aktivasi manual diperlukan)

Latensi data

Per jam

Per menit

Lihat statistik panggilan

Didukung

Didukung

Lihat detail kegagalan

Tidak didukung

Didukung

Lihat metrik kinerja

Didukung

Didukung

Cakupan penerapan

Semua ruang kerja di bawah Akun Alibaba Cloud

Hanya berlaku untuk ruang kerja tempat fitur ini diaktifkan

Penagihan

Gratis

Dikenai biaya

Kuota dan batasan

  • Periode retensi data: Secara default, data untuk Pemantauan Dasar dan Lanjutan disimpan selama 30 hari. Untuk mengkueri informasi penggunaan yang lebih dari 30 hari, buka halaman Biaya dan Pengeluaran.

  • Batas templat peringatan: Anda dapat membuat hingga 100 templat peringatan di setiap ruang kerja.

  • Batas API: Anda dapat mengkueri data metrik pemantauan untuk Pengamatan Model melalui API HTTP Prometheus.

    • Solusi alternatif: Untuk mengambil konsumsi token untuk satu panggilan melalui API, Anda dapat mengekstrak data panggilan saat ini dari bidang usage dalam tanggapan dari setiap panggilan model. Bidang ini memiliki struktur berikut. Untuk informasi lebih lanjut, lihat referensi API Qwen:

      {
        "prompt_tokens": 3019,
        "completion_tokens": 104,
        "total_tokens": 3123,
        "prompt_tokens_details": {
          "cached_tokens": 2048
        }
      }

Penagihan

  • Pemantauan Dasar: Tidak dikenai biaya.

  • Pemantauan Lanjutan: Setelah Anda mengaktifkan fitur ini, data pemantauan tingkat menit ditulis ke layanan CloudMonitor (CMS), yang menimbulkan biaya tambahan. Untuk informasi lebih lanjut tentang metode penagihan, lihat Ikhtisar penagihan CloudMonitor.

FAQ

Mengapa saya tidak dapat menemukan jumlah panggilan dan konsumsi token di Pengamatan Model setelah memanggil model?

Anda dapat melakukan troubleshooting sebagai berikut:

  1. Latensi data: Pastikan Anda telah menunggu cukup lama untuk sinkronisasi data. Data disinkronkan per jam untuk Pemantauan Dasar dan setiap menit untuk Pemantauan Lanjutan.

  2. Ruang kerja: Jika Anda berada di sub-ruang kerja, Anda hanya dapat melihat data untuk ruang kerja tersebut. Beralihlah ke ruang kerja default untuk melihat semua data.

Apa kemungkinan penyebab timeout saat saya memanggil model bahasa besar?

Alasan umum meliputi:

  • Output panjang: Model menghasilkan terlalu banyak konten, sehingga total waktu melebihi batas tunggu klien. Anda dapat menggunakan metode keluaran streaming untuk menerima token pertama lebih cepat.

  • Masalah jaringan: Periksa apakah konektivitas jaringan antara klien dan layanan Alibaba Cloud stabil.

Bagaimana cara mengonfigurasi izin untuk pengguna RAM agar dapat mengaktifkan Pemantauan Lanjutan?

Ikuti langkah-langkah berikut:

  1. Berikan izin AliyunBailianFullAccess manajemen global kepada pengguna RAM.

  2. Tetapkan izin ModelObservation-FullAccess (atau Administrator) izin halaman kepada pengguna RAM untuk mengizinkan operasi tulis di halaman Pengamatan Model.

  3. Berikan kebijakan sistem AliyunCloudMonitorFullAccess kepada pengguna RAM.

  4. Buat dan berikan kebijakan sistem yang mengizinkan pengguna RAM membuat peran terkait layanan.

    1. Masuk ke Konsol RAM. Di panel navigasi kiri, pilih Permissions > Policies. Lalu, klik Create Policy.

    2. Klik JSON, tempel konten berikut ke editor kebijakan, lalu klik OK.

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. Masukkan CreateServiceLinkedRole sebagai nama kebijakan akses dan klik OK.

    4. Di panel navigasi kiri, pilih Identities > Users. Temukan pengguna RAM yang ingin Anda otorisasi dan klik Add Permissions di kolom Actions.

    5. Dari daftar kebijakan akses, pilih kebijakan akses yang baru saja Anda buat (CreateServiceLinkedRole) dan klik Grant permissions. Pengguna RAM sekarang memiliki izin untuk membuat peran terkait layanan.

  5. Setelah menyelesaikan semua konfigurasi izin di atas, kembali ke halaman Pengamatan Model (Singapura atau Beijing), lalu gunakan Pengguna RAM untuk mencoba mengaktifkan Advanced Monitoring lagi.

Lampiran

Glosarium

Istilah

Deskripsi

Real-time Inference

Semua panggilan langsung dan tidak langsung ke model, mencakup skenario berikut:

  • Panggilan API melalui SDK DashScope atau antarmuka kompatibel OpenAI

  • Playground

  • Aplikasi Model Studio dalam status uji atau dipublikasikan, seperti agen, alur kerja, dan aplikasi orkestrasi agen, serta setiap node dalam aplikasi tersebut yang melakukan panggilan model—misalnya, node LLM, node klasifikasi intent, dan node grup agen

  • Panggilan Assistant API

  • Panggilan aplikasi

Batch Inference

Pemrosesan data offline berskala besar menggunakan antarmuka Batch kompatibel OpenAI untuk skenario yang tidak memerlukan respons real-time.