All Products
Search
Document Center

Alibaba Cloud Model Studio:Pemantauan Model

Last Updated:Mar 21, 2026

Gunakan Pemantauan Model untuk:

  • Menampilkan catatan panggilan.

  • Memantau dan mengatur notifikasi untuk metrik seperti Time to First Token (TTFT), durasi panggilan, Requests Per Minute (RPM), Tokens Per Minute (TPM), dan laju kegagalan.

  • Memantau konsumsi token.

Model yang didukung

  • Pemantauan Dasar: Mendukung semua model dalam Daftar model. Pemantauan Lanjutan: Mendukung semua model di Wilayah China (Beijing), Singapura, dan AS (Virginia).

  • Notifikasi: Mendukung semua model di Wilayah China (Beijing) dan Singapura.

  • Pencatatan Log: Mendukung model-model berikut:

    Beijing

    • qwen3-max, qwen3-max-2025-09-23, qwen3-max-2026-01-23, qwen3-max-preview

    • qwen-max, qwen-max-0919, qwen-max-2025-01-25, qwen-max-latest

    • qwen-plus, qwen-plus-2025-04-28, qwen-plus-2025-07-14, qwen-plus-2025-07-28, qwen-plus-2025-09-11, qwen-plus-2025-12-01, qwen-plus-latest

    • qwen-flash, qwen-flash-2025-07-28

    • qwen-turbo, qwen-turbo-2025-07-15, qwen-turbo-2025-04-28, qwen-turbo-latest

    • deepseek-v3.1, deepseek-v3.2, deepseek-v3.2-exp

    • qwen3-235b-a22b, qwen3-235b-a22b-instruct-2507, qwen3-235b-a22b-thinking-2507, qwen3-30b-a3b, qwen3-30b-a3b-instruct-2507, qwen3-30b-a3b-thinking-2507, qwen3-next-80b-a3b-instruct, qwen3-next-80b-a3b-thinking

    • qwen3-coder-480b-a35b-instruct, qwen3-coder-flash, qwen3-coder-flash-2025-07-28, qwen3-coder-plus, qwen3-coder-plus-2025-07-22, qwen3-coder-plus-2025-09-23

    Singapura

    • qwen3-max, qwen3-max-2025-09-23, qwen3-max-2026-01-23, qwen3-max-preview

    • qwen-max, qwen-max-2025-01-25, qwen-max-latest

    • qwen-plus, qwen-plus-2025-04-28, qwen-plus-2025-07-14, qwen-plus-2025-07-28, qwen-plus-2025-09-11, qwen-plus-2025-12-01, qwen-plus-latest

    • qwen-flash, qwen-flash-2025-07-28

    • qwen-turbo, qwen-turbo-2025-04-28, qwen-turbo-latest

    • qwen3-235b-a22b, qwen3-235b-a22b-instruct-2507, qwen3-235b-a22b-thinking-2507, qwen3-30b-a3b, qwen3-30b-a3b-instruct-2507, qwen3-30b-a3b-thinking-2507, qwen3-next-80b-a3b-instruct, qwen3-next-80b-a3b-thinking

    • qwen3-coder-480b-a35b-instruct, qwen3-coder-flash, qwen3-coder-flash-2025-07-28, qwen3-coder-plus, qwen3-coder-plus-2025-07-22, qwen3-coder-plus-2025-09-23

Memantau eksekusi model

Sistem secara otomatis mengumpulkan data panggilan model dari semua Workspace di bawah akun utama Anda. Ketika terjadi panggilan model langsung atau tidak langsung, sistem menyinkronkan data tersebut ke daftar Pemantauan Model di Workspace target.

Catatan dikelompokkan berdasarkan model dan Workspace. Model baru akan muncul dalam daftar setelah sinkronisasi data awal. Pemantauan dasar memiliki latensi data per jam. Untuk wawasan data tingkat menit, gunakan Pemantauan Lanjutan.
Anggota Workspace default dapat melihat data panggilan model di seluruh Workspace. Anggota sub-workspace hanya dapat melihat data untuk Workspace mereka saat ini dan tidak dapat beralih ke Workspace lain.

Temukan model target dalam daftar lalu klik Actions > Monitor untuk melihat metrik berikut:

  • Keamanan: Mendeteksi pelanggaran kebijakan konten, seperti Content Moderation Error Count.

  • Biaya: Mengevaluasi efisiensi biaya, seperti Average Usage per Request.

  • Kinerja: Melacak perubahan kinerja, seperti Call Duration dan Time to First Token (TTFT).

  • Error: Menilai stabilitas model, seperti Failure Count dan Failure Rate.

Anda dapat membuat Notifikasi berdasarkan metrik ini untuk segera mendeteksi dan menangani anomali.

Statistik Panggilan

Tab ini menampilkan metrik Keamanan, Biaya, dan Error, seperti Jumlah Panggilan dan Jumlah Kegagalan. Anda dapat memfilter berdasarkan API Key, Inference Type, dan rentang waktu.

  • Rate Limiting Error Count: Kegagalan panggilan yang disebabkan oleh kode status 429.

  • Content Moderation Error Count: Menghitung jumlah kali Layanan Moderasi Konten memblokir input atau output yang mengandung konten sensitif atau berisiko tinggi yang dicurigai (seperti konten dewasa, konten politik, atau iklan).

Metrik Kinerja

Tab ini menampilkan metrik Kinerja seperti RPM, TPM, Call Duration, dan Time to First Token (TTFT).

Konsumsi token

Menyesuaikan Parameters atau prompt sistem suatu model akan mengubah konsumsi tokennya. Untuk membantu Anda melacak dan mengelola biaya, Pemantauan Model menyediakan fitur-fitur berikut:

  • Rangkuman: Mengagregasi konsumsi token historis berdasarkan Model dan Workspace. Anda juga dapat memfilter berdasarkan rentang waktu dan API Key.

  • Pelacakan: Mencatat konsumsi token untuk setiap Panggilan Model.

  • Notifikasi: Mengatur ambang batas konsumsi dan mengirim Notifikasi ketika suatu Model melebihi ambang tersebut.

Konsumsi token historis

  • Untuk melihat konsumsi token selama 30 hari terakhir:

    1. Ketika model muncul dalam daftar Pemantauan Model untuk workspace tujuan, klik Monitor pada kolom Actions.

    2. Pada tab Call Statistics, lihat data konsumsi token di bagian Calls.

  • Untuk melihat Penggunaan sebelumnya, periksa halaman Biaya dan Pengeluaran.

Konsumsi token untuk satu panggilan model

Fitur ini saat ini hanya tersedia untuk beberapa Model di wilayah China (Beijing).
  1. Masuk dengan Akun Alibaba Cloud Anda (atau Pengguna RAM dengan izin yang cukup). Di halaman Pemantauan Model (Beijing) di Workspace target, klik Monitoring Configuration di pojok kanan atas dan ikuti petunjuk untuk mengaktifkan Audit Log dan Inference Log.

    Setelah diaktifkan, sistem mencatat input dan output setiap Panggilan Model di Workspace tersebut. Log mungkin memerlukan beberapa menit untuk muncul setelah Panggilan Model dilakukan.
  2. Temukan Model target dalam daftar Pemantauan Model lalu klik Logs pada kolom Actions.

  3. Tab Logs menampilkan catatan panggilan inferensi real-time untuk Model tersebut. Bidang Usage menunjukkan konsumsi token untuk panggilan tersebut.

Notifikasi konsumsi abnormal

Riwayat percakapan (log model)

Penting

Fitur ini saat ini hanya tersedia untuk beberapa model di wilayah China (Beijing).

Pemantauan Model mencatat setiap percakapan model, termasuk input, output, dan durasinya, sehingga menyediakan data penting untuk troubleshooting dan auditing konten.

Langkah 1: Aktifkan pencatatan log

Masuk dengan akun Alibaba Cloud (atau pengguna RAM dengan izin yang cukup). Di workspace target, buka halaman Monitoring (Beijing), klik Monitoring Configuration di pojok kanan atas, lalu ikuti petunjuk untuk mengaktifkan audit logs dan inference logs.

Setelah Anda mengaktifkan pencatatan log, sistem akan mencatat input dan output setiap panggilan model di workspace tersebut. Diperlukan waktu hingga beberapa menit agar log-log ini muncul.
Untuk menghentikan pencatatan, nonaktifkan inference logs di Monitoring Configuration.

Langkah 2: Lihat riwayat percakapan

  1. Dalam daftar Pemantauan Model, temukan model target lalu klik Logs pada kolom Actions.

  2. Tab Logs menampilkan catatan panggilan inferensi real-time untuk model tersebut. Bidang Request and Response berisi input dan output setiap panggilan.

Atur notifikasi proaktif

Penting

Fitur ini saat ini hanya tersedia di wilayah Singapura dan China (Beijing).

Kegagalan diam model, seperti timeout dan lonjakan tiba-tiba dalam konsumsi token, sulit dideteksi dengan log aplikasi tradisional. Pemantauan Model memungkinkan Anda mengatur notifikasi untuk metrik seperti biaya, laju kegagalan, dan latensi respons. Saat suatu metrik menjadi abnormal, sistem segera mengirimkan notifikasi.

Langkah 1: Aktifkan pemantauan lanjutan

  1. Masuk dengan akun Alibaba Cloud Anda (atau Pengguna RAM dengan izin yang cukup) dan buka halaman Monitoring (Singapura atau China (Beijing)) di workspace target. Klik Monitoring Configuration di pojok kanan atas.

  2. Pada bagian Pemantauan Lanjutan, aktifkan Performance and usage metrics monitoring.

Langkah 2: Buat aturan notifikasi

  1. Di halaman Alerts (Singapura atau China (Beijing)), klik Create Alert Rule di pojok kanan atas.

  2. Dalam kotak dialog, pilih model dan templat pemantauan, lalu klik Create. Sistem kemudian akan memberi tahu tim Anda setiap kali metrik tertentu, seperti statistik panggilan atau metrik kinerja, menjadi abnormal.

    • Metode Notifikasi: Metode yang didukung meliputi Pesan Teks, Email, Telepon, Robot Grup DingTalk, Robot WeCom, dan Webhook.

    • Tingkat Notifikasi: Terdapat empat tingkat yang telah ditentukan dan tidak dapat dikustomisasi: General, Warning, Error, dan Urgent. Setiap tingkat dipetakan ke saluran notifikasi tertentu:

      • Critical: Telepon, Pesan Teks, Email

      • Error: Pesan Teks, Email

      • Warning: Pesan Teks, Email

      • Info: Email

Integrasi dengan Grafana dan aplikasi kustom

Pemantauan Model menyimpan metrik pemantauan di instans CloudMonitor Prometheus pribadi Anda. Instans ini mendukung API HTTP Prometheus standar, yang memungkinkan Anda menghubungkannya ke Grafana atau aplikasi kustom Anda untuk visualisasi dan analisis data.

Langkah 1: Dapatkan alamat API HTTP

  1. Pastikan Anda telah mengaktifkan Pemantauan Lanjutan.

  2. Di halaman Pemantauan Model (Singapura), Pemantauan Model (Virginia), atau Pemantauan Model (Beijing), klik Monitoring Configuration di pojok kanan atas. Di samping instans CloudMonitor Prometheus, klik View Details.

  3. Di halaman Settings, salin alamat API HTTP untuk lingkungan jaringan klien Anda (Jaringan Publik atau Akses VPC).

    1

Langkah 2: Hubungkan ke Grafana atau aplikasi kustom

Aplikasi kustom

Contoh berikut menunjukkan cara mengambil data pemantauan menggunakan API HTTP Prometheus. Untuk penggunaan API lengkap, lihat dokumentasi API HTTP Prometheus.

  • Contoh 1: Kueri konsumsi token untuk semua model di seluruh Workspace dalam satu Akun Alibaba Cloud untuk rentang waktu tertentu (sepanjang hari 20 November 2025, UTC). Kuerinya adalah model_usage, dan interval langkahnya adalah 60s.

    Contoh

    Deskripsi

    GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query: Nilai query dapat diganti dengan metrik apa pun dari daftar Metrik Pemantauan di bawah ini.

      Metrik pemantauan

      Jenis

      Metrik

      Deskripsi

      Jumlah panggilan

      model_call_count

      Total jumlah panggilan model

      Durasi panggilan

      model_call_duration_total

      Total durasi panggilan model

      model_call_duration

      Rata-rata durasi panggilan model

      model_call_duration_p50

      Durasi panggilan model p50

      model_call_duration_p99

      Durasi panggilan model p99

      model_first_token_duration_total

      Total Time to First Token (TTFT)

      model_first_token_duration

      Rata-rata Time to First Token (TTFT)

      model_first_token_duration_p50

      Time to First Token (TTFT) p50

      model_first_token_duration_p99

      Time to First Token (TTFT) p99

      Waktu per token non-pertama

      model_generation_duration_per_token_total

      Total waktu per token non-pertama

      model_generation_duration_per_token

      Rata-rata waktu per token non-pertama

      model_generation_duration_per_token_p50

      Waktu p50 per token non-pertama

      model_generation_duration_per_token_p99

      Waktu p99 per token non-pertama

      Penggunaan

      model_usage

      Total penggunaan model

    • HTTP API: Ganti {HTTP API} dengan alamat API HTTP yang Anda peroleh di Langkah 1.

    • Otorisasi: Gabungkan AccessKey dan AccessKey Secret akun Alibaba Cloud Anda, pisahkan dengan tanda titik dua (diformat sebagai AccessKey:AccessKey Secret). Kemudian, encode string tersebut dalam Base64 dan berikan dalam format Basic <encoded_string>.

      Nilai contoh: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==

      Catatan: AccessKey dan AccessKey Secret harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.

  • Contoh 2: Berdasarkan Contoh 1, contoh ini menambahkan filter untuk mengambil konsumsi token hanya untuk model tertentu (qwen-plus) di Workspace tertentu (llm-nymssti2mzww****).

    Contoh

    Deskripsi

    GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query: Masukkan beberapa kondisi filter dalam {} dan pisahkan dengan koma, misalnya: {workspace_id="value1",model="value2"}. Tabel berikut mencantumkan kondisi filter yang didukung (LabelKeys).

      Kondisi filter yang didukung

      Kunci label

      Deskripsi

      user_id

      ID akun Alibaba Cloud.

      Untuk pengguna RAM, ini adalah UID. Cara mendapatkan ID

      apikey_id

      ID API Key (bukan API Key). Anda dapat memperolehnya dari halaman Key Management(Singapura | AS | Beijing).

      56

      Catatan

      Nilai -1 untuk apikey_id menunjukkan bahwa panggilan berasal dari konsol Alibaba Cloud Model Studio, bukan dari panggilan API.

      workspace_id

      ID Workspace. Cara mendapatkan ID Workspace

      model

      Nama model.

      protocol

      Jenis protokol. Nilai yang mungkin:

      • HTTP: HTTP non-streaming

      • SSE: HTTP streaming

      • WS: Protokol WebSocket

      sub_protocol

      Sub-protokol. Nilai yang mungkin:

      • DEFAULT: Panggilan sinkron

      • ASYNC: Panggilan asinkron

        Umum digunakan untuk model generasi gambar. Generasi teks-ke-gambar

      status_code

      Kode status HTTP.

      Hanya metrik pemantauan model_call_count yang mendukung LabelKey ini.

      error_code

      Kode error.

      Hanya metrik pemantauan model_call_count yang mendukung LabelKey ini.

      usage_type

      Jenis penggunaan.

      Hanya metrik pemantauan model_usage yang mendukung LabelKey ini.

      Nilai yang mungkin:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

Grafana

Anda dapat menambahkan Pemantauan Model sebagai sumber data di Grafana (baik yang dikelola sendiri maupun Managed Service for Grafana). Contoh ini menggunakan Grafana 10.x (versi bahasa Inggris). Prosedurnya serupa untuk versi lainnya. Untuk informasi lebih lanjut, lihat dokumentasi resmi Grafana.

  1. Tambahkan sumber data:

    1. Masuk ke Grafana dengan akun administrator. Klik ikon hamburger image di pojok kiri atas lalu pilih Administration > Data sources. Klik + Add new data source lalu pilih Prometheus sebagai jenis sumber data.

    2. Pada tab Settings, konfigurasikan sumber data:

      • Name: Masukkan nama kustom.

      • Prometheus server URL: Masukkan alamat API HTTP yang Anda peroleh di Langkah 1.

      • Auth: Aktifkan Basic auth lalu atur User ke AccessKey akun Alibaba Cloud Anda dan Password ke AccessKey Secret-nya.

        AccessKey dan AccessKey Secret harus dimiliki oleh Akun Alibaba Cloud yang sama dengan instans Prometheus dari Langkah 1.

      image

    3. Klik Save & Test di bagian bawah halaman.

  2. Metrik Kueri:

    1. Klik ikon hamburger image di pojok kiri atas halaman Grafana, lalu klik Dashboards di panel navigasi kiri.

    2. Di halaman Dashboards, klik New > New dashboard di sebelah kanan untuk membuat dasbor baru.

    3. Klik + Add visualization lalu pilih sumber data yang baru saja Anda buat.

    4. Di halaman Edit Panel, klik tab Query. Di bagian A, gunakan bidang Label filters untuk memilih __name__ dan nama metrik yang diinginkan. Contoh berikut menunjukkan cara mengkueri metrik konsumsi token model_usage:

      Contoh

      Deskripsi

      image

      Pada gambar, nilai __name__ (model_usage) dapat diganti dengan metrik apa pun dari daftar Metrik Pemantauan berikut.

      Metrik Pemantauan

      Jenis

      Metrik

      Deskripsi

      Jumlah panggilan

      model_call_count

      Total jumlah panggilan model

      Durasi panggilan

      model_call_duration_total

      Total durasi panggilan model

      model_call_duration

      Rata-rata durasi panggilan model

      model_call_duration_p50

      Durasi panggilan model p50

      model_call_duration_p99

      Durasi panggilan model p99

      model_first_token_duration_total

      Total Time to First Token (TTFT)

      model_first_token_duration

      Rata-rata Time to First Token (TTFT)

      model_first_token_duration_p50

      Time to First Token (TTFT) p50

      model_first_token_duration_p99

      Time to First Token (TTFT) p99

      Waktu per token non-pertama

      model_generation_duration_per_token_total

      Total waktu per token non-pertama

      model_generation_duration_per_token

      Rata-rata waktu per token non-pertama

      model_generation_duration_per_token_p50

      Waktu p50 per token non-pertama

      model_generation_duration_per_token_p99

      Waktu p99 per token non-pertama

      Penggunaan

      model_usage

      Total penggunaan model

      Tambahkan filter label berikut untuk mempersempit kueri Anda lebih lanjut:

      Kondisi Filter yang Didukung

      Kunci Label

      Deskripsi

      user_id

      ID akun Alibaba Cloud.

      Untuk pengguna RAM, ini adalah UID. Cara mendapatkan ID

      apikey_id

      ID API Key (bukan API Key). Anda dapat memperolehnya dari halaman Key Management(Singapura | AS | Beijing).

      56

      Catatan

      Nilai -1 untuk apikey_id menunjukkan bahwa panggilan berasal dari konsol Alibaba Cloud Model Studio, bukan dari panggilan API.

      workspace_id

      ID Workspace. Cara mendapatkan ID Workspace

      model

      Nama model.

      protocol

      Jenis protokol. Nilai yang mungkin:

      • HTTP: HTTP non-streaming

      • SSE: HTTP streaming

      • WS: Protokol WebSocket

      sub_protocol

      Sub-protokol. Nilai yang mungkin:

      • DEFAULT: Panggilan sinkron

      • ASYNC: Panggilan asinkron

        Umum digunakan untuk model generasi gambar. Generasi teks-ke-gambar

      status_code

      Kode status HTTP.

      Hanya metrik pemantauan model_call_count yang mendukung LabelKey ini.

      error_code

      Kode error.

      Hanya metrik pemantauan model_call_count yang mendukung LabelKey ini.

      usage_type

      Jenis penggunaan.

      Hanya metrik pemantauan model_usage yang mendukung LabelKey ini.

      Nilai yang mungkin:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

    5. Klik Run queries untuk menjalankan kueri.

      Jika grafik menampilkan data, konfigurasi Anda sudah benar. Jika tidak, pastikan: 1) Alamat API HTTP, AccessKey, dan AccessKey Secret sudah benar. 2) Instans Prometheus dari Langkah 1 berisi data pemantauan.

Perbandingan mode pemantauan

Pemantauan model menawarkan dua mode: Basic Monitoring dan Advanced Monitoring.

Basic Monitoring: Secara otomatis diaktifkan saat Anda mengaktifkan Model Studio dan tidak dapat dinonaktifkan.
Advanced Monitoring: Memerlukan aktivasi manual oleh akun Alibaba Cloud (atau pengguna RAM dengan izin yang cukup) di halaman Monitoring (Singapura), Monitoring (Virginia), atau Monitoring (Beijing) di workspace target. Anda dapat menonaktifkan Pemantauan Lanjutan kapan saja. Data hanya direkam setelah aktivasi.

Item

Basic Monitoring (Default)

Advanced Monitoring (Aktivasi manual)

Latensi data

Per jam

Tingkat menit

Statistik panggilan

Didukung

Didukung

Detail panggilan gagal

Tidak didukung

Didukung

Metrik kinerja

Didukung

Didukung

Cakupan

Semua workspace dalam akun Alibaba Cloud

Hanya berlaku untuk workspace yang diaktifkan

Penagihan

Gratis

Berbayar

Kuota dan batasan

  • Periode retensi data: Data untuk Pemantauan Dasar dan Lanjutan disimpan selama 30 hari secara default. Untuk mengkueri data penggunaan yang lebih lama, buka halaman Biaya dan Pengeluaran.

  • Batas templat notifikasi: Anda dapat membuat hingga 100 templat notifikasi untuk setiap Workspace.

  • Batas API: Anda dapat mengkueri Metrik Pemantauan dengan API HTTP Prometheus.

    • Alternatif: Untuk mengambil konsumsi token dari satu panggilan API, ekstrak data dari bidang usage dalam tanggapan. Struktur bidangnya sebagai berikut (untuk detail, lihat referensi API Qwen):

      {
        "prompt_tokens": 3019,
        "completion_tokens": 104,
        "total_tokens": 3123,
        "prompt_tokens_details": {
          "cached_tokens": 2048
        }
      }

Penagihan

FAQ

Mengapa data jumlah panggilan dan konsumsi token tidak terlihat di Pemantauan Model?

Periksa kemungkinan masalah berikut:

  1. Latensi data: Pastikan waktu yang cukup telah berlalu untuk sinkronisasi data. Pemantauan Dasar memiliki latensi data tingkat jam, sedangkan Pemantauan Lanjutan memiliki latensi tingkat menit.

  2. Cakupan Workspace: Jika Anda berada di workspace tertentu, Anda hanya dapat melihat data untuk cakupan tersebut. Beralihlah ke workspace default untuk melihat semua data.

Apa yang dapat menyebabkan error timeout saat memanggil model bahasa besar?

Penyebab umum meliputi:

  • Generasi respons yang lama: Model membutuhkan waktu terlalu lama untuk menghasilkan respons lengkap, melebihi batas timeout klien. Pertimbangkan untuk menggunakan Streaming Output agar menerima token pertama lebih cepat.

  • Masalah jaringan: Pastikan koneksi jaringan antara klien Anda dan layanan Alibaba Cloud stabil.

Bagaimana cara mengonfigurasi izin untuk Pengguna RAM agar dapat mengaktifkan Pemantauan Lanjutan?

Ikuti langkah-langkah berikut:

  1. Lampirkan AliyunBailianFullAccess Kebijakan ke pengguna RAM.

  2. Berikan role Model Monitoring – Operations (atau Administrator) kepada Pengguna RAM untuk mengizinkan operasi tulis di halaman Pemantauan Model.

  3. Hubungkan Kebijakan Sistem AliyunCloudMonitorFullAccess ke Pengguna RAM tersebut.

  4. Buat dan hubungkan kebijakan kustom yang mengizinkan Pengguna RAM untuk membuat Service-Linked Role.

    1. Masuk ke konsol RAM. Di panel navigasi, pilih Permissions > Policies, lalu klik Create Policy.

    2. Klik tab JSON, tempel dokumen kebijakan berikut ke editor, lalu klik OK.

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. Masukkan CreateServiceLinkedRole sebagai nama kebijakan lalu klik OK.

    4. Di panel navigasi kiri, pilih Identity Management > Users. Di halaman tersebut, temukan Pengguna RAM target lalu klik Add Permission di kolom Actions untuk pengguna tersebut.

    5. Dari daftar Policies, pilih kebijakan CreateServiceLinkedRole yang baru saja Anda buat, lalu klik Grant permissions.

  5. Setelah mengonfigurasi izin ini, kembali ke halaman Monitoring ((ap-southeast-1) Singapura), Monitoring ((US-East-1) Virginia), atau Monitoring (Beijing) lalu coba lagi mengaktifkan Advanced Monitoring.

Bagaimana cara mengonfigurasi izin untuk Pengguna RAM agar dapat mengaktifkan Inference Logs?

Ikuti langkah-langkah berikut:

  1. Hubungkan kebijakan AliyunBailianFullAccess kebijakan ke Pengguna RAM tersebut.

  2. Berikan role Model Monitoring – Operations (atau Administrator) kepada Pengguna RAM untuk mengizinkan operasi tulis di halaman Pemantauan Model.

  3. Hubungkan Kebijakan Sistem AliyunLogFullAccess ke Pengguna RAM tersebut.

  4. Buat dan hubungkan kebijakan kustom yang mengizinkan Pengguna RAM untuk membuat Service-Linked Role.

    1. Masuk ke konsol RAM. Di panel navigasi, pilih Permissions > Policy, lalu klik Create Policy.

    2. Klik tab JSON, tempel dokumen kebijakan berikut ke editor, lalu klik OK.

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. Masukkan CreateServiceLinkedRole sebagai nama kebijakan lalu klik OK.

    4. Di panel navigasi, pilih Identities > Users. Temukan Pengguna RAM target lalu klik Add Permission di kolom Actions.

    5. Dari daftar Policies, pilih kebijakan CreateServiceLinkedRole yang baru saja Anda buat, lalu klik Grant permissions.

  5. Setelah mengonfigurasi izin ini, kembali ke halaman Monitoring (Beijing) lalu coba lagi mengaktifkan Inference Logs.

Lampiran

Glosarium

Istilah

Deskripsi

Setiap panggilan model—langsung maupun tidak langsung—yang memerlukan respons interaktif segera. Kasus penggunaan meliputi:

  • Panggilan API melalui SDK DashScope atau antarmuka kompatibel OpenAI

  • Playground

  • Aplikasi Studio Model, seperti agen, alur kerja, dan aplikasi orkestrasi agen, baik di lingkungan pengujian maupun produksi. Ini mencakup semua Node yang melakukan panggilan model, seperti Node LLM, klasifikasi intent, dan grup agen.

  • Panggilan Assistant API

  • Panggilan aplikasi

Batches

Pemrosesan data skala besar secara asinkron untuk permintaan yang tidak sensitif terhadap latensi. Anda dapat mengirimkan pekerjaan inferensi batch menggunakan API Batch kompatibel OpenAI (input file).