Topik ini menjelaskan parameter input dan output untuk memanggil Qwen-MT melalui antarmuka yang Kompatibel dengan OpenAI atau API DashScope.
Referensi: Penerjemahan mesin (Qwen-MT)
Kompatibel dengan OpenAI
Wilayah Singapura
base_url untuk SDK: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Titik akhir HTTP: POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
Wilayah Virginia
base_url untuk SDK: https://dashscope-us.aliyuncs.com/compatible-mode/v1
Titik akhir HTTP: POST https://dashscope-us.aliyuncs.com/compatible-mode/v1/chat/completions
Wilayah Beijing
base_url untuk SDK: https://dashscope.aliyuncs.com/compatible-mode/v1
Titik akhir HTTP: POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
Anda harus terlebih dahulu membuat Kunci API dan mengonfigurasi Kunci API sebagai Variabel lingkungan. Jika Anda menggunakan SDK OpenAI untuk melakukan panggilan, Anda perlu menginstal SDK.
Body permintaan | Penggunaan dasarPythonNode.jscurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. Intervensi istilahPythonNode.jscurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. Memori terjemahanPythonNode.jscurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. Pemberian petunjuk domainPythonNode.jscurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. |
model Nama model. Model yang didukung: qwen-mt-plus, qwen-mt-flash, qwen-mt-lite, dan qwen-mt-turbo. | |
messages Array pesan yang memberikan konteks kepada model. Hanya pesan dari pengguna yang didukung. | |
stream Menentukan apakah respons dikembalikan dalam mode keluaran streaming. Nilai yang valid:
Catatan Saat ini, hanya model qwen-mt-flash dan qwen-mt-lite yang mendukung pengembalian data secara inkremental. Setiap potongan data yang dikembalikan hanya berisi konten yang baru dihasilkan. Model qwen-mt-plus dan qwen-mt-turbo mengembalikan data secara non-inkremental. Setiap potongan data yang dikembalikan berisi seluruh urutan yang telah dihasilkan hingga saat itu. Perilaku ini tidak dapat diubah. Contohnya: I I didn I didn't I didn't laugh I didn't laugh after ... | |
stream_options Item konfigurasi untuk keluaran streaming. Parameter ini hanya berlaku ketika | |
max_tokens Jumlah maksimum token yang akan dihasilkan. Jika konten yang dihasilkan melebihi nilai ini, respons akan dipotong. Nilai default dan maksimum sama dengan panjang output maksimum model. Untuk informasi selengkapnya, lihat Pemilihan Model. | |
seed Bilangan acak seed. Ini memastikan bahwa hasilnya dapat direproduksi dengan input dan parameter yang sama. Jika Anda menggunakan Rentang nilai: | |
temperature Suhu pengambilan sampel, yang mengontrol keragaman teks yang dihasilkan. Nilai suhu yang lebih tinggi menghasilkan teks yang lebih beragam. Nilai suhu yang lebih rendah menghasilkan teks yang lebih deterministik. Rentang nilai: [0, 2) Baik temperature maupun top_p mengontrol keragaman teks yang dihasilkan. Atur hanya salah satu dari keduanya. | |
top_p Ambang batas probabilitas untuk pengambilan sampel inti, yang mengontrol keragaman teks yang dihasilkan. Nilai top_p yang lebih tinggi menghasilkan teks yang lebih beragam. Nilai top_p yang lebih rendah menghasilkan teks yang lebih deterministik. Rentang nilai: (0, 1.0] Baik temperature maupun top_p mengontrol keragaman teks yang dihasilkan. Atur hanya salah satu dari keduanya. | |
top_k Ukuran set kandidat untuk pengambilan sampel selama generasi. Misalnya, jika Anda mengatur parameter ini ke 50, hanya 50 token dengan skor tertinggi dalam satu generasi yang digunakan untuk membentuk set kandidat untuk pengambilan sampel acak. Nilai yang lebih besar meningkatkan keacakan. Nilai yang lebih kecil meningkatkan determinisme. Jika nilainya None atau lebih besar dari 100, kebijakan top_k dinonaktifkan dan hanya kebijakan top_p yang berlaku. Nilai harus lebih besar dari atau sama dengan 0. Parameter ini bukan parameter standar OpenAI. Saat Anda menggunakan SDK Python, letakkan parameter ini dalam objek extra_body. Contohnya: | |
repetition_penalty Hukuman terhadap pengulangan dalam urutan berturut-turut selama generasi model. Nilai repetition_penalty yang lebih tinggi mengurangi pengulangan. Nilai 1.0 menunjukkan tidak ada hukuman. Nilai harus lebih besar dari 0, tetapi tidak ada rentang nilai yang ketat. Parameter ini bukan parameter standar OpenAI. Saat Anda menggunakan SDK Python, letakkan parameter ini dalam objek extra_body. Contohnya: | |
translation_options Parameter terjemahan yang akan dikonfigurasi. Parameter ini bukan parameter standar OpenAI. Saat Anda menggunakan SDK Python, letakkan parameter ini dalam objek extra_body. Contohnya: |
Objek respons chat (keluaran non-streaming) | |
id ID unik permintaan. | |
choices Array konten yang dihasilkan oleh model. | |
created Stempel waktu UNIX saat permintaan dibuat. | |
model Model yang digunakan untuk permintaan. | |
object Ini selalu | |
service_tier Parameter ini saat ini bernilai | |
system_fingerprint Parameter ini saat ini bernilai | |
usage Informasi konsumsi token untuk permintaan. |
Objek potongan respons chat (keluaran streaming) | Keluaran inkrementalKeluaran non-inkremental |
id ID unik dari panggilan. Setiap objek potongan memiliki ID yang sama. | |
choices Array konten yang dihasilkan oleh model. Jika | |
created Stempel waktu UNIX saat permintaan dibuat. Setiap potongan memiliki stempel waktu yang sama. | |
model Model yang digunakan untuk permintaan. | |
object Nilai ini selalu | |
service_tier Parameter ini saat ini selalu bernilai | |
system_fingerprint Parameter ini saat ini selalu bernilai | |
usage Token yang dikonsumsi oleh permintaan. Informasi ini hanya dikembalikan pada potongan terakhir ketika |
DashScope
Singapura
Titik akhir HTTP: POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/text-generation/generation
Atur base_url ke:
Kode Python
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'Kode Java
Metode 1:
import com.alibaba.dashscope.protocol.Protocol; Generation gen = new Generation(Protocol.HTTP.getValue(), "https://dashscope-intl.aliyuncs.com/api/v1");Metode 2:
import com.alibaba.dashscope.utils.Constants; Constants.baseHttpApiUrl="https://dashscope-intl.aliyuncs.com/api/v1";
Virginia
Titik akhir HTTP: POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/text-generation/generation
Atur base_url ke:
Kode Python
dashscope.base_http_api_url = 'https://dashscope-us.aliyuncs.com/api/v1'Kode Java
Metode 1:
import com.alibaba.dashscope.protocol.Protocol; Generation gen = new Generation(Protocol.HTTP.getValue(), "https://dashscope-us.aliyuncs.com/api/v1");Metode 2:
import com.alibaba.dashscope.utils.Constants; Constants.baseHttpApiUrl="https://dashscope-us.aliyuncs.com/api/v1";
Beijing
Titik akhir HTTP: POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation
Anda tidak perlu mengonfigurasi base_url untuk panggilan SDK. Nilai default-nya adalah https://dashscope.aliyuncs.com/api/v1.
Anda harus membuat Kunci API dan mengekspor Kunci API sebagai variabel lingkungan. Jika menggunakan SDK DashScope, instal SDK DashScope.
Body permintaan | Penggunaan dasarPythonJavacurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. Intervensi istilahPythonJavacurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. Memori terjemahanPythonJavacurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. Pemberian petunjuk domainPythonJavacurlSetiap wilayah memiliki titik akhir permintaan dan Kunci API yang berbeda. Berikut ini adalah titik akhir permintaan untuk wilayah Singapura. |
model Nama model. Model yang didukung: qwen-mt-plus, qwen-mt-flash, qwen-mt-lite, dan qwen-mt-turbo. | |
messages Array pesan yang memberikan konteks kepada model. Hanya pesan dari pengguna yang didukung. | |
max_tokens Jumlah maksimum token yang akan dihasilkan. Jika konten yang dihasilkan melebihi nilai ini, respons akan dipotong. Nilai default dan maksimum sama dengan panjang output maksimum model. Untuk informasi selengkapnya, lihat Pemilihan model. Dalam SDK Java, parameter ini adalah maxTokens. Untuk panggilan HTTP, letakkan max_tokens dalam objek parameters. | |
seed Bilangan acak seed. Ini memastikan bahwa hasilnya dapat direproduksi dengan input dan parameter yang sama. Jika Anda menggunakan Rentang nilai: Saat Anda melakukan panggilan HTTP, letakkan seed dalam objek parameters. | |
temperature Suhu pengambilan sampel, yang mengontrol keragaman teks yang dihasilkan. Nilai suhu yang lebih tinggi menghasilkan teks yang lebih beragam. Nilai suhu yang lebih rendah menghasilkan teks yang lebih deterministik. Rentang nilai: [0, 2) Baik temperature maupun top_p mengontrol keragaman teks yang dihasilkan. Atur hanya salah satu dari keduanya. Saat Anda melakukan panggilan HTTP, letakkan temperature dalam objek parameters. | |
top_p Ambang batas probabilitas untuk pengambilan sampel inti, yang mengontrol keragaman teks yang dihasilkan. Nilai top_p yang lebih tinggi menghasilkan teks yang lebih beragam. Nilai top_p yang lebih rendah menghasilkan teks yang lebih deterministik. Rentang nilai: (0, 1,0] Baik temperature maupun top_p mengontrol keragaman teks yang dihasilkan. Atur hanya salah satu dari keduanya. Dalam Java SDK, parameternya berupa objek topPparameters. | |
repetition_penalty Hukuman terhadap pengulangan dalam urutan berturut-turut selama generasi model. Nilai repetition_penalty yang lebih tinggi mengurangi pengulangan. Nilai 1,0 menunjukkan tidak ada hukuman. Nilai harus lebih besar dari 0, tetapi tidak ada rentang nilai yang ketat. Dalam SDK Java, parameter ini adalah repetitionPenalty. Untuk panggilan HTTP, tambahkan repetition_penalty ke objek parameters. | |
top_k Ukuran set kandidat untuk pengambilan sampel selama generasi. Misalnya, jika Anda mengatur parameter ini ke 50, hanya 50 token dengan skor tertinggi dalam satu generasi yang digunakan untuk membentuk set kandidat untuk pengambilan sampel acak. Nilai yang lebih besar meningkatkan keacakan. Nilai yang lebih kecil meningkatkan determinisme. Jika nilainya None atau lebih besar dari 100, kebijakan top_k dinonaktifkan dan hanya kebijakan top_p yang berlaku. Nilai harus lebih besar dari atau sama dengan 0. Dalam SDK Java, parameter ini adalah topK. Saat Anda melakukan panggilan HTTP, atur top_k dalam objek parameters. | |
stream Menentukan apakah respons dikembalikan dalam mode keluaran streaming. Nilai yang valid:
Catatan Saat ini, hanya model qwen-mt-flash dan qwen-mt-lite yang mendukung pengembalian data secara inkremental. Setiap potongan data yang dikembalikan hanya berisi konten yang baru dihasilkan. Model qwen-mt-plus dan qwen-mt-turbo mengembalikan data secara non-inkremental. Setiap potongan data yang dikembalikan berisi seluruh urutan yang telah dihasilkan hingga saat itu. Perilaku ini tidak dapat diubah. Contohnya: I I didn I didn't I didn't laugh I didn't laugh after ... Parameter ini hanya didukung oleh SDK Python. Untuk menerapkan keluaran streaming dengan SDK Java, panggil antarmuka | |
translation_options Parameter terjemahan yang akan dikonfigurasi. Dalam SDK Java, parameter ini adalah |
Objek respons chat (sama untuk keluaran streaming dan non-streaming) | |
status_code Kode status permintaan. Nilai 200 menunjukkan bahwa permintaan berhasil. Jika tidak, permintaan gagal. SDK Java tidak mengembalikan parameter ini. Jika panggilan gagal, pengecualian dilemparkan. Pesan pengecualian berisi konten status_code dan message. | |
request_id ID unik dari panggilan. Dalam SDK Java, parameter yang dikembalikan adalah requestId. | |
code Kode kesalahan. Parameter ini kosong jika panggilan berhasil. Hanya SDK Python yang mengembalikan parameter ini. | |
output Informasi tentang hasil panggilan. | |
usage Informasi penggunaan token untuk permintaan. |
Kode kesalahan
Jika panggilan model gagal dan pesan kesalahan dikembalikan, lihat Pesan kesalahan untuk menyelesaikan masalah.