全部产品
Search
文档中心

:Penagihan untuk model

更新时间:Nov 26, 2025

Ikhtisar harga

Mengaktifkan Alibaba Cloud Model Studio tidak dikenai biaya apa pun. Biaya inferensi model (pemanggilan) akan dikenakan saat Anda memanggil model untuk menjalankan tugas seperti generasi teks, generasi citra, dan sintesis suara.

Lihat tagihan: Buka halaman Detail Tagihan dan Analisis Biaya. Lihat statistik: Buka halaman Pengamatan Model (Singapura atau Beijing).

Item yang Dikenai Biaya

Inferensi model (pemanggilan)

Metode

Berdasarkan volume pemanggilan model

Rumus

Biaya = Penggunaan × Harga satuan

Deskripsi

Kuota gratis: Kuota gratis hanya tersedia di wilayah Singapura. Pemanggilan real-time tidak dikenai biaya selama masih dalam kuota gratis. Data kuota tersisa diperbarui setiap jam, dan mungkin terjadi keterlambatan hingga satu jam selama periode puncak.

Harga satuan: Lihat harga

Inferensi model (pemanggilan)

Ikhtisar penagihan & kuota gratis

Untuk harga pemanggilan model, lihat Model. Untuk batasan seperti permintaan per menit (RPM) dan token per menit (TPM), lihat Batas laju.

Catatan

Kuota gratis hanya tersedia di wilayah Singapura. Untuk informasi lebih lanjut tentang cara mengklaim kuota gratis dan melihat kuota gratis yang tersisa, lihat Kuota gratis pengguna baru.

Di halaman Model Observasi (Singapura atau Beijing), Anda dapat melihat jumlah panggilan dan token yang digunakan untuk model tertentu.

Langganan (rencana penghematan)

Anda dapat membeli satu atau beberapa rencana penghematan untuk mengimbangi biaya inferensi yang dikenakan setelah kuota gratis Anda habis. Setelah rencana penghematan habis, sistem akan mulai memotong biaya dari saldo akun Anda.

Model bahasa besar

Metode pembelian

Klik di sini untuk membeli rencana penghematan inferensi LLM.

Tingkatan

Alibaba Cloud Model Studio menawarkan tingkatan pembelian berikut: $10, $50, $100, $500, $1.000, $5.000, dan $50.000.

Periode validitas

  • Untuk tingkatan $10, $50, dan $100, periode validitasnya tiga bulan.

  • Untuk tingkatan $500, $1.000, $5.000, dan $50.000, periode validitasnya enam bulan.

Model yang berlaku

Semua model generasi teks di wilayah Singapura dan wilayah Beijing (termasuk: edisi komersial Qwen, edisi open source Qwen, DeepSeek, Kimi). Buka Model untuk melihat model-model ini dan harga pemanggilannya.

Petunjuk penggunaan

Saat menggunakan Model Studio, kuota rencana penghematan akan dikonsumsi terlebih dahulu. Jika Anda membeli beberapa rencana penghematan, kuota akan dipotong berdasarkan urutan tanggal kedaluwarsanya. Jika tanggal kedaluwarsanya sama, rencana penghematan yang dibeli lebih dulu akan dipotong terlebih dahulu.

Menanyakan tagihan rencana penghematan

Untuk informasi lebih lanjut, lihat Cara menanyakan tagihan rencana penghematan.

Model Wan

Metode pembelian

Klik di sini untuk membeli rencana penghematan Wan.

Petunjuk pembelian

Alibaba Cloud Model Studio menawarkan lima tingkatan pembelian:

  • $10: Tidak ada diskon

  • $50: Tidak ada diskon

  • $100: Tidak ada diskon

  • $500: Diskon 2%

  • $1.000: Diskon 5%

  • $5.000: Diskon 10%

Contoh diskon: Ambil tingkatan $500 sebagai contoh. Jika menghasilkan video berbiaya $1, jumlah aktual yang dipotong dari rencana penghematan adalah $1 × 0,98 = $0,98.

Periode validitas

  • Untuk tingkatan $10, $50, dan $100, periode validitasnya tiga bulan.

  • Untuk tingkatan $500, $1.000, dan $5.000, periode validitasnya enam bulan.

Petunjuk penggunaan

Saat menggunakan Model Studio, kuota rencana penghematan akan dikonsumsi terlebih dahulu. Jika Anda membeli beberapa rencana penghematan, kuota akan dipotong berdasarkan urutan tanggal kedaluwarsanya.

Menanyakan tagihan

Lihat Cara menanyakan tagihan rencana penghematan.

Model yang berlaku

Generasi citra: wan2.5-t2i-preview, wan2.5-i2i-preview, wan2.2-t2i-plus, wan2.2-t2i-flash, wanx2.1-imageedit, wan2.1-t2i-plus, wan2.1-t2i-turbo, wanx2.0-t2i-turbo

Generasi video: wan2.5-t2v-preview, wan2.5-i2v-preview, wan2.2-i2v-flash, wan2.2-i2v-plus, wan2.2-t2v-plus, wan2.1-vace-plus, wan2.1-kf2v-plus, wan2.1-i2v-plus, wan2.1-i2v-turbo, wan2.1-t2v-plus, wan2.1-t2v-turbo

Buka Model untuk melihat semua model dan harga pemanggilannya.

Diskon batch (hanya wilayah Singapura)

Layanan Inferensi Batch (API Batch) memproses dataset besar secara asinkron dengan biaya 50% dari biaya pemanggilan real-time.

Anda dapat mengirimkan file melalui konsol atau API untuk membuat tugas batch. Sistem memproses data selama jam sepi dan mengembalikan hasil saat tugas selesai atau waktu tunggu maksimum tercapai.

Model yang didukung

Model generasi teks: qwen-max, qwen-plus, qwen-turbo

Batasan

Inferensi batch tidak mendukung layanan atau diskon seperti langganan (rencana penghematan), kuota gratis, atau Cache Konteks.

Cache konteks diskon

Mencakup cache implisit dan cache eksplisit:

  • Cache implisit

    Tidak ada biaya tambahan untuk mengaktifkan mode cache implisit.

    image.png

    Anda dapat mengambil jumlah token yang di-cache dari atribut cached_tokens dalam respons.

    OpenAI compatible batch tidak memenuhi syarat untuk diskon cache.
  • Cache eksplisit

    Mencakup biaya berikut:

    • Buat cache: Biaya untuk token yang digunakan untuk membuat cache dihitung sebesar 125% dari harga satuan input standar. Jika blok cache yang ada merupakan awalan dari cache baru, hanya konten baru (jumlah token blok cache baru - jumlah token blok cache yang ada) yang ditagih.

      Misalkan terdapat blok cache A yang ada dengan 1.200 token. Saat permintaan baru perlu meng-cache 1.500 token konten AB, 1.200 token akan ditagih sebesar 10% dari harga hit, dan 300 token baru akan ditagih sebesar 125% dari harga pembuatan.

      Jumlah token yang digunakan untuk membuat cache dapat dilihat melalui parameter cache_creation_input_tokens.
    • Hit cache: Harga satuan adalah 10% dari token input standar.

      Jumlah token yang hit cache dapat dilihat melalui parameter cached_tokens.
    • Token lainnya: Token yang tidak hit cache dan tidak digunakan untuk membuat cache ditagih dengan harga asli.

FAQ

Umum

Cara membayar atau mengisi ulang akun saya?

Biaya pemanggilan model dipotong secara otomatis. Tagihan dihasilkan setiap jam. Untuk informasi lebih lanjut, lihat Pengantar metode pembayaran.

Metode langganan:

Inferensi model (pemanggilan): Klik di sini untuk membeli rencana penghematan inferensi LLM.

Bagaimana cara memperpanjang layanan saya?

Setelah 15 Maret 2024, Model Studio meningkatkan layanan komersialnya. Semua layanan langganan diubah menjadi layanan bayar sesuai pemakaian. Oleh karena itu, Anda tidak perlu memperpanjang layanan secara manual. Metode penagihan bayar sesuai pemakaian digunakan secara otomatis.

Bagaimana cara menghentikan penagihan?

  • Inferensi model dan pelatihan model

    Anda tidak akan lagi dikenakan biaya setelah Anda berhenti menggunakan fitur terkait. Untuk inferensi model, Anda dapat menghapus Kunci API (Singapore atau Beijing) untuk mencegah tagihan lebih lanjut dari panggilan yang tidak disengaja.

    image

Anda dapat mengatur peringatan pengeluaran bulanan. Atur ambang batas peringatan ke nilai rendah. Alibaba Cloud akan memberi tahu Anda saat terjadi biaya tak terduga untuk membantu Anda menghindari kerugian lebih lanjut.

Bagaimana cara melihat jumlah pemanggilan dan token yang dikonsumsi?

Anda dapat melihat jumlah panggilan dan konsumsi token untuk model tertentu di halaman Model Observation (Singapore atau Beijing).

Bagaimana cara menghitung token?

Token adalah unit dasar yang digunakan model untuk merepresentasikan teks. Anda dapat menganggapnya sebagai karakter atau kata.

  • Dalam bahasa Mandarin, satu token biasanya satu karakter atau kata. Misalnya, teks "你好,我是通义千问" (Halo, saya Qwen) dikonversi menjadi ['你好', ',', '我是', '通', '义', '千', '问'].

  • Untuk teks bahasa Inggris, satu token biasanya sesuai dengan tiga hingga empat huruf atau satu kata. Misalnya, "Nice to meet you." dikonversi menjadi ['Nice', ' to', ' meet', ' you', '.'].

Model bahasa besar (LLM) yang berbeda mungkin menggunakan metode berbeda untuk membagi token. Anda dapat menggunakan SDK untuk melihat data token yang dibagi oleh model Qwen di mesin lokal Anda.

Lihat data token yang dibagi oleh model Qwen:

# Pastikan SDK Python DashScope telah diinstal.
from dashscope import get_tokenizer

# Dapatkan objek tokenizer. Saat ini, hanya model seri Qwen yang didukung.
tokenizer = get_tokenizer('qwen-turbo')

input_str = 'Qwen memiliki kemampuan yang kuat.'

# Bagi string menjadi token dan konversi menjadi ID token.
tokens = tokenizer.encode(input_str)
print(f"ID token setelah pembagian adalah: {tokens}.")
print(f"Terdapat {len(tokens)} token setelah pembagian.")

# Konversi ID token menjadi string dan cetak.
for i in range(len(tokens)):
    print(f"String yang sesuai dengan ID token {tokens[i]} adalah: {tokenizer.decode(tokens[i])}")
// Hak Cipta (c) Alibaba, Inc. dan afiliasinya.
// versi SDK dashscope >= 2.13.0
import java.util.List;
import com.alibaba.dashscope.exception.NoSpecialTokenExists;
import com.alibaba.dashscope.exception.UnSupportedSpecialTokenMode;
import com.alibaba.dashscope.tokenizers.Tokenizer;
import com.alibaba.dashscope.tokenizers.TokenizerFactory;

public class Main {
  public static void testEncodeOrdinary(){
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt ="Jika Anda harus berjalan jarak yang sangat jauh, berapa lama waktu yang dibutuhkan untuk tiba? ";
    // encode string tanpa token khusus
    List<Integer> ids = tokenizer.encodeOrdinary(prompt);
    System.out.println(ids);
    String decodedString = tokenizer.decode(ids);
    assert decodedString == prompt;
  }

  public static void testEncode() throws NoSpecialTokenExists, UnSupportedSpecialTokenMode{
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt = "<|im_start|>system\nAnda adalah asisten yang membantu.<|im_end|>\n<|im_start|>user\nSan Francisco adalah<|im_end|>\n<|im_start|>assistant\n";
    // encode string dengan token khusus <|im_start|> dan <|im_end|>
    List<Integer> ids = tokenizer.encode(prompt, "all");
    // 24 token [151644, 8948, 198, 7771, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 23729, 80328, 9464, 374, 264, 151645, 198, 151644, 77091, 198]
    String decodedString = tokenizer.decode(ids);
    System.out.println(ids);
    assert decodedString == prompt;

  }

  public static void main(String[] args) {
      try {
        testEncodeOrdinary();
        testEncode();
      } catch (NoSpecialTokenExists | UnSupportedSpecialTokenMode e) {
        e.printStackTrace();
      }
  }
}

Tokenizer lokal membantu memperkirakan jumlah token dalam teks Anda. Namun, hasilnya hanya sebagai referensi dan mungkin tidak sesuai persis dengan hitungan di sisi server. Untuk informasi lebih lanjut tentang tokenizer Qwen, lihat referensi tokenizer.

Apa yang harus dilakukan jika pemanggilan model gagal?

Lihat dokumen Pesan kesalahan untuk solusi yang sesuai.

Aturan penagihan

Mengapa kuota gratis saya tidak berkurang setelah saya memanggil model? (hanya Singapura)

Data kuota gratis diperbarui setiap jam. Selama jam sibuk, mungkin terjadi keterlambatan hingga satu jam. Oleh karena itu, Anda perlu melihat kuota tersisa satu jam setelah pemanggilan model selesai.

Bagaimana cara penagihan token yang melebihi kuota gratis? (hanya Singapura)

Anda ditagih berdasarkan jumlah token yang benar-benar dikonsumsi. Karena harga satuan (biaya input atau output) per 1 juta token, rumusnya adalah:

Biaya = Jumlah token yang benar-benar dikonsumsi / 1.000.000 × Harga satuan.

Misalnya, biaya input qwen-vl-max adalah $0,80 per 1 juta token, dan kuota gratis tersisa adalah 50.000 token. Dalam pemanggilan dengan input 50.400 token, biaya untuk token yang melebihi kuota gratis adalah 400 / 1.000.000 × $0,80.

Bagaimana cara penagihan percakapan multi-putaran?

Dalam percakapan multi-putaran, input dan output dari percakapan historis ditagih sebagai token input untuk putaran baru.

Apakah aplikasi model dikenai biaya?

Anda tidak dikenai biaya untuk membuat aplikasi. Namun, jika Anda memanggil aplikasi untuk pasangan tanya jawab, Anda dikenai biaya pemanggilan model berdasarkan model yang dipanggil.

Mengapa rencana penghematan inferensi LLM saya tidak digunakan untuk pemotongan?

Jika kuota gratis belum habis, tidak ada tagihan yang dihasilkan dan tidak ada biaya yang dikenakan. Dalam kasus ini, rencana penghematan tidak digunakan untuk pemotongan. Rencana penghematan digunakan untuk pemotongan setelah kuota gratis habis dan tagihan dihasilkan.

Pembayaran tertunda

Apa dampak dari pembayaran tertunda?

Jika akun Anda memiliki pembayaran tertunda, Anda tidak dapat melakukan pemanggilan model meskipun memiliki kuota gratis (hanya Singapura) atau paket sumber daya. Anda dapat membuka halaman Isi Ulang untuk mengisi ulang akun Anda.

Kesalahan pemanggilan API: Bagaimana cara cepat menyelesaikan masalah aktivasi layanan atau pembayaran tertunda?

1. Layanan belum diaktifkan

Gunakan akun Alibaba Cloud Anda untuk membuka Konsol Model Studio (Singapura atau Beijing) dan aktifkan layanan model Model Studio.

image

2. Saldo akun tidak mencukupi

  • Periksa saldo: Masuk ke halaman Biaya dan Pengeluaran untuk memeriksa apakah saldo Anda mencukupi.

  • Isi ulang: Klik Top-up & Remittance, masukkan jumlah yang diperlukan, dan selesaikan pembayaran.

3. Atur peringatan pengeluaran untuk mencegah kesalahan berulang

Tagihan

Setelah inferensi model, mengapa saya tidak dapat menemukan tagihan terkait di halaman Detail Tagihan?

Kemungkinan alasannya adalah:

  • Sistem penagihan diperbarui setiap jam. Selama jam sibuk, mungkin terjadi keterlambatan hingga satu jam. Misalnya, biaya yang dikeluarkan antara pukul 16.00 dan 17.00 mungkin tidak ditagih hingga pukul 19.30.00.

  • Model gratis dan inferensi model dalam kuota gratis (hanya Singapura) tidak menghasilkan tagihan. Hanya penggunaan yang melebihi kuota gratis yang menghasilkan tagihan.

Bagaimana cara melihat biaya semua layanan Model Studio?

Di halaman Analisis Biaya, atur Cost Type ke Pretax Amount, atur Time Unit ke Month, pilih rentang waktu, dan atur Product Name ke Alibaba Cloud Model Studio. Anda kemudian dapat melihat biaya Model Studio dalam rentang waktu yang dipilih.

image

Bagaimana cara melihat biaya layanan inferensi model?

Di halaman Analisis Biaya, atur Cost Type ke Pretax Amount, atur Time Granularity ke Month, pilih rentang waktu, dan atur Product Detail ke Inferensi Model Dasar Model Studio. Anda kemudian dapat melihat total biaya inferensi model dalam rentang waktu yang dipilih.

image

Bagaimana cara melihat biaya inferensi model tertentu?

Ambil qwen-max sebagai contoh. Di halaman Detail Tagihan, pilih Bulan Penagihan. Atur Commodity Name ke Model Studio Foundation Model Inference dan klik Search.

Di kolom ID Instans, temukan semua instans yang terkait dengan qwen-max. Jumlahkan jumlah sebelum pajak untuk instans-instans ini untuk mendapatkan total biaya inferensi untuk model qwen-max dalam siklus penagihan yang dipilih.

image

Bagaimana cara mengekspor dan melihat jumlah token yang dikonsumsi dalam tagihan detail?

Di halaman Detail Tagihan, atur Item Statistik ke Billable Item dan ekspor tagihan. Anda dapat melihat penggunaan token dalam tagihan.

image

Bagaimana cara merekonsiliasi tagihan detail untuk model?

Tagihan untuk inferensi, penerapan, dan pelatihan model yang dihasilkan setelah 7 September 2024 dapat direkonsiliasi berdasarkan ApiKeyID, ID ruang kerja, nama model, jenis input/output, saluran pemanggilan, dan tag instans.

Di halaman Detail Tagihan, pilih Bulan Penagihan. Atur Commodity Name ke Model Studio Foundation Model Inference dan klik Search. Unduh hasil pencarian ke mesin lokal Anda dan rekonsiliasi tagihan berdasarkan konten di kolom ID Instans.

Asset/Resource Instance ID lengkap, seperti 12xxx;llm-xxx;qwen-max;output_token;app, masing-masing merepresentasikan ApiKeyID;ID Ruang Kerja;Nama Model;Jenis Input/Output;Saluran Pemanggilan. Jika Asset/Resource Instance ID Anda tidak mengandung ApiKeyID, item biaya tersebut dihasilkan oleh pemanggilan dari konsol.

Instance ID lengkap, seperti text_token;llm-xxx;qwen-max;output_token;app, masing-masing merepresentasikan Jenis Penagihan;ID Ruang Kerja;Nama Model;Jenis Input/Output;Saluran Pemanggilan.

Tag instans lengkap, seperti key:test value:test, masing-masing merepresentasikan Kunci Tag (key) dan Nilai Tag (value). Jika instans memiliki dua tag atau lebih, pasangan kunci-nilai tag dicantumkan secara berurutan dan dipisahkan dengan titik koma, seperti key:test1 value:test1; key:test2 value:test2.

Buka halaman Manajemen Kunci API Model Studio dan konfirmasi kunci API yang sesuai dengan ApiKeyID untuk merekonsiliasi tagihan berdasarkan kunci API.
Buka halaman Workspace Management (Singapore atau Beijing) dan konfirmasi ruang kerja yang sesuai dengan ID ruang kerja untuk merekonsiliasi tagihan berdasarkan ruang kerja.
Saluran panggilan termasuk app, bmp, dan assistant-api. app menunjukkan bahwa model dipanggil melalui aplikasi. bmp menunjukkan bahwa model dipanggil melalui Playground (Singapore atau Beijing). assistant-api menunjukkan bahwa model dipanggil melalui API Asisten.

image

Bagaimana cara penyelesaian tagihan bayar sesuai pemakaian?

Tagihan sumber daya cloud bayar sesuai pemakaian Not diselesaikan secara real-time. Instead, sistem terlebih dahulu membekukan jumlah yang dikonsumsi tetapi belum diselesaikan dari kredit yang tersedia akun. Pada awal bulan berikutnya, setelah tagihan bulanan akhir dikeluarkan, tagihan untuk bulan sebelumnya benar-benar dipotong.

Kontrol biaya

Bagaimana cara mengatur peringatan pengeluaran tinggi?

Anda dapat mengatur peringatan pengeluaran bulanan di pusat Biaya dan Pengeluaran.

image

Bagaimana cara membatasi penggunaan pemanggilan model?

  • Hentikan biaya setelah kuota gratis Anda habis

    Untuk menghindari biaya tambahan, Model Studio menyediakan fitur Hanya kuota gratis.

  • Batasi jumlah pemanggilan model atau token yang dikonsumsi per satuan waktu

    Tetapkan batas laju untuk sub-ruang kerja. Buka halaman Ruang Kerja, temukan sub-ruang kerja yang dituju, dan klik Authorization & Throttling Settings. Sesuaikan Request Number Limit dan Token Limit untuk setiap model.

  • Atur peringatan untuk konsumsi token

    Tetapkan aturan peringatan untuk biaya model. Untuk informasi lebih lanjut, lihat Pengamatan penggunaan dan kinerja.

    • Jika layanan Pemantauan lanjutan belum diaktifkan, akun Alibaba Cloud harus terlebih dahulu beralih ke ruang kerja yang dituju dan kemudian mengaktifkan atau menonaktifkannya secara manual di halaman Pengamatan Model. Untuk menggunakan pengguna RAM, akun Alibaba Cloud harus terlebih dahulu memberikan izin yang diperlukan kepada pengguna RAM.

    • Buka halaman Peringatan Model dan ikuti petunjuk untuk mengaktifkan layanan CloudMonitor.

    • Klik Create Alert Rule untuk mengonfigurasi aturan. Saat metrik tertentu menjadi tidak normal, sistem akan memberi tahu Anda atau tim O&M Anda.

    Peringatan model hanya memicu notifikasi dan tidak menghentikan pemanggilan model.