Ikhtisar harga | Mengaktifkan Alibaba Cloud Model Studio tidak dikenai biaya apa pun. Biaya inferensi model (pemanggilan) akan dikenakan saat Anda memanggil model untuk menjalankan tugas seperti generasi teks, generasi citra, dan sintesis suara. Lihat tagihan: Buka halaman Detail Tagihan dan Analisis Biaya. Lihat statistik: Buka halaman Pengamatan Model (Singapura atau Beijing). | ||||||||||||||||||||||||
Item yang Dikenai Biaya | Inferensi model (pemanggilan)
| ||||||||||||||||||||||||
Inferensi model (pemanggilan) | Ikhtisar penagihan & kuota gratisUntuk harga pemanggilan model, lihat Model. Untuk batasan seperti permintaan per menit (RPM) dan token per menit (TPM), lihat Batas laju. Catatan Kuota gratis hanya tersedia di wilayah Singapura. Untuk informasi lebih lanjut tentang cara mengklaim kuota gratis dan melihat kuota gratis yang tersisa, lihat Kuota gratis pengguna baru. Di halaman Model Observasi (Singapura atau Beijing), Anda dapat melihat jumlah panggilan dan token yang digunakan untuk model tertentu. Langganan (rencana penghematan)Anda dapat membeli satu atau beberapa rencana penghematan untuk mengimbangi biaya inferensi yang dikenakan setelah kuota gratis Anda habis. Setelah rencana penghematan habis, sistem akan mulai memotong biaya dari saldo akun Anda. Model bahasa besar
Model Wan
Diskon batch (hanya wilayah Singapura)Layanan Inferensi Batch (API Batch) memproses dataset besar secara asinkron dengan biaya 50% dari biaya pemanggilan real-time. Anda dapat mengirimkan file melalui konsol atau API untuk membuat tugas batch. Sistem memproses data selama jam sepi dan mengembalikan hasil saat tugas selesai atau waktu tunggu maksimum tercapai. Model yang didukungModel generasi teks: qwen-max, qwen-plus, qwen-turbo BatasanInferensi batch tidak mendukung layanan atau diskon seperti langganan (rencana penghematan), kuota gratis, atau Cache Konteks. Cache konteks diskonMencakup cache implisit dan cache eksplisit:
| ||||||||||||||||||||||||
FAQ | UmumCara membayar atau mengisi ulang akun saya?Biaya pemanggilan model dipotong secara otomatis. Tagihan dihasilkan setiap jam. Untuk informasi lebih lanjut, lihat Pengantar metode pembayaran. Metode langganan: Inferensi model (pemanggilan): Klik di sini untuk membeli rencana penghematan inferensi LLM. Bagaimana cara memperpanjang layanan saya?Setelah 15 Maret 2024, Model Studio meningkatkan layanan komersialnya. Semua layanan langganan diubah menjadi layanan bayar sesuai pemakaian. Oleh karena itu, Anda tidak perlu memperpanjang layanan secara manual. Metode penagihan bayar sesuai pemakaian digunakan secara otomatis. Bagaimana cara menghentikan penagihan?
Anda dapat mengatur peringatan pengeluaran bulanan. Atur ambang batas peringatan ke nilai rendah. Alibaba Cloud akan memberi tahu Anda saat terjadi biaya tak terduga untuk membantu Anda menghindari kerugian lebih lanjut. Bagaimana cara melihat jumlah pemanggilan dan token yang dikonsumsi?Bagaimana cara menghitung token?Token adalah unit dasar yang digunakan model untuk merepresentasikan teks. Anda dapat menganggapnya sebagai karakter atau kata.
Model bahasa besar (LLM) yang berbeda mungkin menggunakan metode berbeda untuk membagi token. Anda dapat menggunakan SDK untuk melihat data token yang dibagi oleh model Qwen di mesin lokal Anda. Lihat data token yang dibagi oleh model Qwen: Tokenizer lokal membantu memperkirakan jumlah token dalam teks Anda. Namun, hasilnya hanya sebagai referensi dan mungkin tidak sesuai persis dengan hitungan di sisi server. Untuk informasi lebih lanjut tentang tokenizer Qwen, lihat referensi tokenizer. Apa yang harus dilakukan jika pemanggilan model gagal?Lihat dokumen Pesan kesalahan untuk solusi yang sesuai. Aturan penagihanMengapa kuota gratis saya tidak berkurang setelah saya memanggil model? (hanya Singapura)Data kuota gratis diperbarui setiap jam. Selama jam sibuk, mungkin terjadi keterlambatan hingga satu jam. Oleh karena itu, Anda perlu melihat kuota tersisa satu jam setelah pemanggilan model selesai. Bagaimana cara penagihan token yang melebihi kuota gratis? (hanya Singapura)Anda ditagih berdasarkan jumlah token yang benar-benar dikonsumsi. Karena harga satuan (biaya input atau output) per 1 juta token, rumusnya adalah: Biaya = Jumlah token yang benar-benar dikonsumsi / 1.000.000 × Harga satuan. Misalnya, biaya input qwen-vl-max adalah $0,80 per 1 juta token, dan kuota gratis tersisa adalah 50.000 token. Dalam pemanggilan dengan input 50.400 token, biaya untuk token yang melebihi kuota gratis adalah 400 / 1.000.000 × $0,80. Bagaimana cara penagihan percakapan multi-putaran?Dalam percakapan multi-putaran, input dan output dari percakapan historis ditagih sebagai token input untuk putaran baru. Apakah aplikasi model dikenai biaya?Anda tidak dikenai biaya untuk membuat aplikasi. Namun, jika Anda memanggil aplikasi untuk pasangan tanya jawab, Anda dikenai biaya pemanggilan model berdasarkan model yang dipanggil. Mengapa rencana penghematan inferensi LLM saya tidak digunakan untuk pemotongan?Jika kuota gratis belum habis, tidak ada tagihan yang dihasilkan dan tidak ada biaya yang dikenakan. Dalam kasus ini, rencana penghematan tidak digunakan untuk pemotongan. Rencana penghematan digunakan untuk pemotongan setelah kuota gratis habis dan tagihan dihasilkan. Pembayaran tertundaApa dampak dari pembayaran tertunda?Jika akun Anda memiliki pembayaran tertunda, Anda tidak dapat melakukan pemanggilan model meskipun memiliki kuota gratis (hanya Singapura) atau paket sumber daya. Anda dapat membuka halaman Isi Ulang untuk mengisi ulang akun Anda. Kesalahan pemanggilan API: Bagaimana cara cepat menyelesaikan masalah aktivasi layanan atau pembayaran tertunda?1. Layanan belum diaktifkan Gunakan akun Alibaba Cloud Anda untuk membuka Konsol Model Studio (Singapura atau Beijing) dan aktifkan layanan model Model Studio.
2. Saldo akun tidak mencukupi
3. Atur peringatan pengeluaran untuk mencegah kesalahan berulang
TagihanSetelah inferensi model, mengapa saya tidak dapat menemukan tagihan terkait di halaman Detail Tagihan? Kemungkinan alasannya adalah:
Bagaimana cara melihat biaya semua layanan Model Studio?Di halaman Analisis Biaya, atur Cost Type ke Pretax Amount, atur Time Unit ke Month, pilih rentang waktu, dan atur Product Name ke Alibaba Cloud Model Studio. Anda kemudian dapat melihat biaya Model Studio dalam rentang waktu yang dipilih.
Bagaimana cara melihat biaya layanan inferensi model?Di halaman Analisis Biaya, atur Cost Type ke Pretax Amount, atur Time Granularity ke Month, pilih rentang waktu, dan atur Product Detail ke Inferensi Model Dasar Model Studio. Anda kemudian dapat melihat total biaya inferensi model dalam rentang waktu yang dipilih.
Bagaimana cara melihat biaya inferensi model tertentu?Ambil qwen-max sebagai contoh. Di halaman Detail Tagihan, pilih Bulan Penagihan. Atur Commodity Name ke Model Studio Foundation Model Inference dan klik Search. Di kolom ID Instans, temukan semua instans yang terkait dengan qwen-max. Jumlahkan jumlah sebelum pajak untuk instans-instans ini untuk mendapatkan total biaya inferensi untuk model qwen-max dalam siklus penagihan yang dipilih.
Bagaimana cara mengekspor dan melihat jumlah token yang dikonsumsi dalam tagihan detail?Di halaman Detail Tagihan, atur Item Statistik ke Billable Item dan ekspor tagihan. Anda dapat melihat penggunaan token dalam tagihan.
Bagaimana cara merekonsiliasi tagihan detail untuk model?Tagihan untuk inferensi, penerapan, dan pelatihan model yang dihasilkan setelah 7 September 2024 dapat direkonsiliasi berdasarkan ApiKeyID, ID ruang kerja, nama model, jenis input/output, saluran pemanggilan, dan tag instans. Di halaman Detail Tagihan, pilih Bulan Penagihan. Atur Commodity Name ke Model Studio Foundation Model Inference dan klik Search. Unduh hasil pencarian ke mesin lokal Anda dan rekonsiliasi tagihan berdasarkan konten di kolom ID Instans. Asset/Resource Instance ID lengkap, seperti Instance ID lengkap, seperti Tag instans lengkap, seperti Buka halaman Manajemen Kunci API Model Studio dan konfirmasi kunci API yang sesuai dengan ApiKeyID untuk merekonsiliasi tagihan berdasarkan kunci API. Buka halaman Workspace Management (Singapore atau Beijing) dan konfirmasi ruang kerja yang sesuai dengan ID ruang kerja untuk merekonsiliasi tagihan berdasarkan ruang kerja. Saluran panggilan termasuk app, bmp, dan assistant-api. app menunjukkan bahwa model dipanggil melalui aplikasi. bmp menunjukkan bahwa model dipanggil melalui Playground (Singapore atau Beijing). assistant-api menunjukkan bahwa model dipanggil melalui API Asisten.
Bagaimana cara penyelesaian tagihan bayar sesuai pemakaian?Tagihan sumber daya cloud bayar sesuai pemakaian Not diselesaikan secara real-time. Instead, sistem terlebih dahulu membekukan jumlah yang dikonsumsi tetapi belum diselesaikan dari kredit yang tersedia akun. Pada awal bulan berikutnya, setelah tagihan bulanan akhir dikeluarkan, tagihan untuk bulan sebelumnya benar-benar dipotong. Kontrol biayaBagaimana cara mengatur peringatan pengeluaran tinggi?Anda dapat mengatur peringatan pengeluaran bulanan di pusat Biaya dan Pengeluaran.
Bagaimana cara membatasi penggunaan pemanggilan model?
| ||||||||||||||||||||||||
Ikhtisar harga | Mengaktifkan Alibaba Cloud Model Studio tidak dikenai biaya apa pun. Biaya inferensi model (pemanggilan) akan dikenakan saat Anda memanggil model untuk menjalankan tugas seperti generasi teks, generasi citra, dan sintesis suara. Lihat tagihan: Buka halaman Detail Tagihan dan Analisis Biaya. Lihat statistik: Buka halaman Pengamatan Model (Singapura atau Beijing). |
Item yang Dikenai Biaya | |
Inferensi model (pemanggilan) | Langganan (rencana penghematan)Diskon batch (hanya wilayah Singapura)Cache konteks diskon |
FAQ | UmumCara membayar atau mengisi ulang akun saya?Bagaimana cara memperpanjang layanan saya?Bagaimana cara menghentikan penagihan?Bagaimana cara melihat jumlah pemanggilan dan token yang dikonsumsi?Bagaimana cara menghitung token?Apa yang harus dilakukan jika pemanggilan model gagal?Aturan penagihanMengapa kuota gratis saya tidak berkurang setelah saya memanggil model? (hanya Singapura)Bagaimana cara penagihan token yang melebihi kuota gratis? (hanya Singapura)Bagaimana cara penagihan percakapan multi-putaran?Apakah aplikasi model dikenai biaya?Mengapa rencana penghematan inferensi LLM saya tidak digunakan untuk pemotongan?Pembayaran tertundaApa dampak dari pembayaran tertunda?Kesalahan pemanggilan API: Bagaimana cara cepat menyelesaikan masalah aktivasi layanan atau pembayaran tertunda?TagihanBagaimana cara melihat biaya semua layanan Model Studio?Bagaimana cara melihat biaya layanan inferensi model?Bagaimana cara melihat biaya inferensi model tertentu?Bagaimana cara mengekspor dan melihat jumlah token yang dikonsumsi dalam tagihan detail?Bagaimana cara merekonsiliasi tagihan detail untuk model?Bagaimana cara penyelesaian tagihan bayar sesuai pemakaian?Kontrol biayaBagaimana cara mengatur peringatan pengeluaran tinggi?Bagaimana cara membatasi penggunaan pemanggilan model? |








