Cara menerapkan model bahasa besar - Alibaba Cloud Model Studio

Penting

Dokumen ini hanya berlaku untuk wilayah China (Beijing).

Metode Penagihan

Sebelum menerapkan model, Anda dapat memeriksa perkiraan biaya per jam untuk berbagai model di Konsol Penerapan Model (Beijing).

Catatan

Anda tidak dapat mengubah metode penagihan setelah layanan dibuat. Untuk mengganti metode tersebut, Anda harus terlebih dahulu membatalkan penerapan model dan menerapkannya kembali.

	Provisioned Throughput
Kasus Penggunaan	Paling cocok untuk trafik yang dapat diprediksi di mana throughput stabil, konkurensi tinggi, dan latensi rendah sangat penting.
Metode Penagihan	Berdasarkan durasi penggunaan dan throughput yang disediakan
Metode Penskalaan	Peningkatan atau penurunan throughput mandiri
Unit Penagihan Minimum	Pasca bayar: menit	Prabayar: hari
Manfaat	Menyediakan kapasitas throughput stabil, latensi lebih rendah, dan determinisme sumber daya yang lebih kuat untuk lingkungan produksi beban tinggi. Mendukung perpanjangan otomatis.
Batasan Produk	Penagihan prabayar dilakukan harian. Jika Anda menghentikan sebelum waktunya, hari-hari yang digunakan dikenai biaya sebesar 1,5× tarif asli. Jika penggunaan melebihi throughput yang Anda beli dalam jendela waktu tertentu, sistem secara otomatis beralih ke layanan model call yang disediakan oleh Model Studio.

Untuk melihat penggunaan token per panggilan dan jumlah panggilan historis, buka halaman Pemantauan Model (Beijing).

Rincian Penagihan

Bayar Sesuai Penggunaan Berdasarkan Durasi (Provisioned Throughput)

Biaya = Durasi × (Harga satuan TPM input × TPM input + Harga satuan TPM output × TPM output)

Pesanan prabayar langsung berlaku setelah pembayaran dan berlaku hingga pukul 23.59 pada hari ke-N. Jika Anda melakukan pemesanan setelah pukul 22.00, tanggal kedaluwarsa diperpanjang satu hari.
Setelah pesanan prabayar kedaluwarsa, layanan berhenti dua jam kemudian. Sumber daya dicadangkan selama 14 jam sebelum dilepas.
Anda tidak dapat menghentikan pesanan prabayar sebelum waktunya.
Untuk penagihan pasca bayar, jika akun Anda memiliki pembayaran tertunda, sumber daya yang diterapkan tetap aktif dan terus ditagih selama 24 jam sebelum secara otomatis dilepas.

Jika input model melebihi panjang token input maksimum atau batas Tokens Per Minute (TPM) yang Anda beli, panggilan terkait tersebut secara otomatis beralih ke panggilan model bayar sesuai penggunaan. Hal ini dapat menyebabkan penurunan performa inferensi. Panggilan tersebut tunduk pada pembatasan laju yang diterapkan pada trafik publik di ruang kerja Anda. Anda ditagih berdasarkan tarif standar model call (bayar sesuai penggunaan).

Dalam kasus ini, header respons API mencakup: x-dashscope-ptu-overflow:true.
Untuk melihat metrik TPM, buka halaman Pemantauan Model (Beijing).

Nama Model	Jenis Model	Panjang Konteks Maksimum (Token Input + Token Output)	Token Masukan Maksimum	Pasca Bayar – Per Jam		Prabayar – Harian
Nama Model	Jenis Model		Token Masukan Maksimum	Input (Per 10k TPM)	Output (Per 1k TPM)	Input (Per 10k TPM)	Output (Per 1k TPM)
Qwen3-Max-2025-09-23	Instruct	128.000	128.000	$1,11	$0,45	$13,32	$5,40
Qwen-Plus-2025-12-01	Instruct			$0,28	$0,07	$3,36	$0,84
Qwen-Plus-2025-12-01	Thinking			$0,28	$0,28	$3,36	$3,36
Qwen-Flash-2025-07-28	Instruct/Thinking			$0,06	$0,06	$0,72	$0,72
Qwen3-VL-Plus-2025-09-23	Instruct/Thinking			$0,35	$0,35	$4,20	$4,20
DeepSeek-v3.2	Instruct/Thinking		64.000	$1,04	$0,16	$12,48	$1,92

Jenis model:

Instruct — Model menjalankan inferensi dalam mode non-thinking setelah diterapkan.
Thinking — Model menjalankan inferensi dalam mode thinking setelah diterapkan.

Untuk informasi tentang cara menerapkan lebih banyak model, lihat solusi ini. Anda dapat memilih opsi penerapan yang paling sesuai dengan kebutuhan bisnis Anda.

Metode Penerapan

Anda dapat menerapkan model di konsol dengan mengikuti langkah-langkah berikut:

Jika Anda mengalami error izin, lihat Apa yang harus saya lakukan jika mendapatkan error izin saat penerapan?

Buka Konsol Penerapan Model (Beijing).

Pilih model dan metode penagihan. Anda dapat mempertahankan pengaturan lainnya sebagai default. Kemudian, atur nama model dan mulai penerapan.

Ketika status penerapan berubah menjadi Running, model berhasil diterapkan.

Penting

Anda dikenai biaya setelah model berhasil diterapkan.

Memanggil Model yang Diterapkan

Setelah model berhasil diterapkan, Anda dapat memanggilnya menggunakan API kompatibel OpenAI, SDK DashScope, atau SDK Assistant.

Saat Anda memanggil model yang berhasil diterapkan, nilai parameter model harus berupa kode model. Anda dapat membuka halaman Konsol Penerapan Model (Beijing) untuk mendapatkan Model Code.

DashScope

import os
import dashscope

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Who are you?"},
]
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'
response = dashscope.Generation.call(
    # Jika Anda belum mengatur variabel lingkungan, ganti baris berikut dengan Kunci API Model Studio Anda: api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-max-xxx-xxx",  # Ganti dengan kode model yang diterapkan Anda
    messages=messages,
    result_format="message",
    enable_thinking=False,
)
print(response)

Antarmuka Kompatibel OpenAI

import os
from openai import OpenAI


client = OpenAI(
    # Jika Anda belum mengatur variabel lingkungan, ganti baris berikut dengan Kunci API Model Studio Anda: api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-max-xxx-xxx",  # Ganti dengan kode model yang diterapkan Anda
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who are you?"},
    ],
    extra_body={"enable_thinking": False},
)
print(completion)

Penskalaan Layanan yang Diterapkan

Provisioned throughput (bayar sesuai penggunaan berdasarkan durasi): Klik tombol Scaling untuk menyesuaikan jumlah instans secara manual.

Membatalkan Publikasi Layanan yang Telah Diterapkan

Buka Konsol Penerapan Model (Beijing). Temukan layanan yang ingin Anda batalkan penerapannya, klik Deactivate, lalu konfirmasi tindakan tersebut. Anda tidak lagi dikenai biaya setelah layanan dibatalkan penerapannya.

FAQ

Apakah saya dapat mengunggah dan menerapkan model saya sendiri?

Saat ini Anda tidak dapat mengunggah atau menerapkan model Anda sendiri. Untuk pembaruan, ikuti pengumuman di Alibaba Cloud Model Studio.

Alternatifnya, Alibaba Cloud Platform for AI (PAI) mendukung penerapan model Anda sendiri. Untuk informasi lebih lanjut, lihat Penerapan Model Bahasa Besar PAI-LLM.

Apa yang harus saya lakukan jika mendapatkan error izin saat penerapan?

Jika Anda melihat error “Missing permissions for this module”, pastikan akun Anda memiliki izin Model Deployment – Operation di halaman manajemen izin ruang kerja Anda.

Jika Anda masih tidak dapat melanjutkan, hubungi organisasi atau administrator IT Anda untuk menambahkan izin yang diperlukan atau membantu Anda memecahkan masalah tersebut.
Jika penerapan gagal dengan error “Workspace X does not have permission to deploy model Y”, buka halaman Manajemen Ruang Kerja di Model Studio dan berikan izin kepada ruang kerja target untuk menerapkan model tersebut.

Pesan error API: Workspace xxx does not have deployment privilege for model xxxx.

Jika Anda tidak memiliki izin yang diperlukan, hubungi organisasi atau administrator IT Anda untuk memberikan izin atau melakukan tindakan tersebut untuk Anda.