Platform Terbuka Pencarian AI memungkinkan panggilan API ke layanan model besar, termasuk model besar spesifik RAG yang dibangun di atas fondasi model milik Alibaba. Layanan ini ideal untuk skenario RAG, meningkatkan akurasi jawaban dan mengurangi tingkat halusinasi saat digunakan bersama dengan layanan pemrosesan dan pengambilan dokumen.
Layanan | ID Layanan (service_id) | Deskripsi layanan | Batas QPS untuk panggilan API (Untuk Akun Alibaba Cloud dan Pengguna RAM) |
Qwen3-235B-A22B | qwen3-235b-a22b | Model ini adalah model bahasa besar (LLM) generasi baru dari seri Qwen yang dilatih secara ekstensif. Qwen3 telah membuat terobosan signifikan dalam inferensi, mengikuti instruksi, kemampuan agen, dan dukungan multi-bahasa, dapat mendukung lebih dari 100 bahasa dan dialek, serta memiliki kemampuan pemahaman, inferensi, dan generasi multi-bahasa yang kuat. | 3 Catatan Untuk mengajukan QPS yang lebih tinggi, ajukan tiket. |
Model Deepseek QwQ | qwq-32b | Model ini adalah model inferensi QwQ yang dilatih berdasarkan model Qwen2.5-32B dan sangat meningkatkan kemampuan inferensi model melalui Pembelajaran Penguatan. Performa model ini dalam matematika dan coding (AIME 24/25 dan LiveCodeBench) dan beberapa indikator performa umumnya, seperti IFEval dan LiveBench, telah mencapai level versi penuh DeepSeek-R1. | |
OpenSearch-Qwen-Turbo | ops-qwen-turbo | Memanfaatkan model bahasa besar qwen-turbo untuk supervised fine-tuning, meningkatkan kemampuan pengambilan dan mengurangi keberbahayaan. | |
Qwen-Turbo | qwen-turbo | Model Qwen yang menampilkan kecepatan tinggi dan biaya rendah serta cocok untuk tugas sederhana. | |
Qwen-Plus | qwen-plus | Model yang kinerja inferensi, biaya, dan kecepatannya berada di antara Qwen-Max dan Qwen-Turbo dan cocok untuk tugas yang cukup kompleks. | |
Qwen-Max | qwen-max | Model Qwen yang menampilkan performa terbaik di antara model Qwen dan cocok untuk tugas kompleks dan multi-langkah. | |
DeepSeek-R1 | deepseek-r1 | LLM yang berfokus pada tugas inferensi kompleks, berperforma baik dalam memahami instruksi kompleks dan memastikan akurasi hasil, serta mendukung fitur pencarian web. | |
DeepSeek-V3 | deepseek-v3 | Model sistem ahli campuran (MoE) yang unggul dalam teks panjang, coding, matematika, pengetahuan ensiklopedis, dan kemahiran bahasa Mandarin. | |
DeepSeek-R1-distill-qwen-7b | deepseek-r1-distill-qwen-7b | Model ini diperoleh dengan fine-tuning Qwen-7B berdasarkan sampel pelatihan yang dihasilkan oleh DeepSeek-R1 menggunakan teknologi penyulingan pengetahuan. | |
DeepSeek-R1-distill-qwen-14b | deepseek-r1-distill-qwen-14b | Model ini diperoleh dengan fine-tuning Qwen-14B berdasarkan sampel pelatihan yang dihasilkan oleh DeepSeek-R1 menggunakan teknologi penyulingan pengetahuan. |
Prasyarat
Informasi otentikasi harus diperoleh.
Saat memanggil layanan Platform Terbuka Pencarian AI menggunakan API, Anda perlu mengotentikasi identitas pemanggil.
Alamat akses layanan harus diperoleh.
Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Dapatkan alamat pendaftaran layanan.
Deskripsi permintaan
Deskripsi umum
Badan permintaan tidak boleh melebihi ukuran 8 MB.
Metode permintaan HTTP
POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}Deskripsi parameter:
host: Alamat untuk memanggil layanan. Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Kueri titik akhir layanan.
workspace_name: Nama ruang kerja, seperti default.
service_id: ID layanan bawaan sistem, seperti ops-qwen-turbo.
Parameter permintaan
Parameter header
Otentikasi Kunci API
Parameter | Tipe | Diperlukan | Deskripsi | Contoh |
Content-Type | String | Ya | Jenis permintaan. Nilai valid: application dan json. | application/json |
Authorization | String | Ya | Kunci API untuk otentikasi. | Bearer OS-d1**2a |
Parameter body
Parameter | Tipe | Diperlukan | Deskripsi | Contoh |
messages | Daftar | Ya | Riwayat percakapan antara pengguna dan model. Setiap elemen daftar adalah objek JSON dengan kunci 'role' dan 'content'. 'role' bisa berupa 'system', 'user', atau 'assistant'.
| |
stream | Boolean | Tidak | Menunjukkan apakah akan mengembalikan hasil dalam mode streaming. Secara default, ini disetel ke false. Saat parameter ini disetel ke true, setiap keluaran adalah seluruh urutan yang dihasilkan hingga saat itu, dengan keluaran terakhir menjadi hasil lengkap akhir. | false |
enable_search | Boolean | Tidak | Menunjukkan apakah akan mengaktifkan pencarian web. Nilai default: false. Jika Anda menyetel parameter ini ke true, model besar menggunakan prompt bawaan untuk menentukan apakah akan mengaktifkan pencarian web. Catatan Hanya deepseek-r1 yang didukung. | false |
csi_level | String | Tidak | Tingkat penyaringan moderasi konten. Nilai default: strict. Nilai valid:
| strict |
parameters | Map | Tidak | Sekumpulan parameter yang dapat disesuaikan untuk permintaan model besar. | |
parameters.search_return_result | Boolean | Tidak | Parameter ini berlaku hanya ketika Anda menyetel enable_search ke true. Nilai valid:
| false |
parameters.search_top_k | Integer | Tidak | Jumlah keluaran yang dikembalikan oleh pencarian web. Catatan Parameter ini berlaku hanya ketika Anda menyetel enable_search ke true. Parameter ini hanya mendukung model deepseek-r1. | 5 |
parameters.search_way | String | Tidak | Strategi pencarian web, yang sama dengan API pencarian web.
Catatan Parameter ini berlaku hanya ketika Anda menyetel enable_search ke true. Parameter ini hanya mendukung model deepseek-r1. | normal |
parameters.seed | Integer | Tidak | Seed acak yang digunakan selama pembuatan konten. Parameter ini mengontrol keacakan konten yang dihasilkan oleh model. Nilai valid: bilangan bulat tak bertanda 64-bit. Jika Anda menentukan seed acak, model mencoba menghasilkan konten yang sama atau serupa untuk keluaran setiap pemanggilan model. Namun, model tidak dapat menjamin bahwa keluaran persis sama untuk setiap pemanggilan model. | "parameters":{"seed":666} |
parameters.max_tokens | Integer | Tidak | Jumlah maksimum token yang dapat dihasilkan oleh model. Jika Anda menggunakan model qwen-turbo, nilai maksimum dan default adalah 1500. Jika Anda menggunakan model qwen-max dan qwen-plus, nilai maksimum dan default adalah 2000. | "parameters":{"max_tokens":1500} |
parameters.top_p | Float | Tidak | Ambang batas probabilitas dalam metode pengambilan sampel inti yang digunakan selama proses generasi. Misalnya, jika parameter ini disetel ke 0.8, hanya subset terkecil dari token paling mungkin yang jumlah probabilitas kumulatifnya setidaknya 0.8 yang disimpan sebagai set kandidat. Nilai valid: (0,1.0). Nilai yang lebih besar menunjukkan keacakan konten yang dihasilkan lebih tinggi. Nilai yang lebih kecil menunjukkan keacakan konten yang dihasilkan lebih rendah. | "parameters":{"top_p":0.7} |
parameters.top_k | Integer | Tidak | Ukuran set kandidat tempat token diambil sampel selama proses generasi. Misalnya, jika parameter ini disetel ke 50, hanya 50 token dengan skor tertinggi yang dihasilkan pada satu waktu yang digunakan sebagai set kandidat untuk pengambilan sampel acak. Nilai yang lebih besar menunjukkan keacakan konten yang dihasilkan lebih tinggi. Nilai yang lebih kecil menunjukkan akurasi konten yang dihasilkan lebih tinggi. Jika parameter ini dibiarkan kosong atau disetel ke nilai lebih besar dari 100, kebijakan top_k dinonaktifkan. Dalam hal ini, hanya kebijakan top_p yang berlaku. | "parameters":{"top_k":50} |
parameters.repetition_penalty | Float | Tidak | Tingkat pengulangan konten yang dihasilkan oleh model. Nilai yang lebih besar menunjukkan pengulangan lebih rendah. Nilai 1.0 menunjukkan tidak ada penalti. Tidak ada nilai valid yang ditentukan untuk parameter ini. Kami merekomendasikan Anda menyetel parameter ini ke nilai lebih besar dari 0. | "parameters":{"repetition_penalty":1.0} |
parameters.presence_penalty | Float | Tidak | Pengulangan kata-kata dalam konten yang dihasilkan. Nilai yang lebih besar menunjukkan pengulangan lebih rendah. Nilai valid: [-2.0, 2.0]. | "parameters":{"presence_penalty":1.0} |
parameters.temperature | Float | Tidak | Tingkat keacakan dan keragaman konten yang dihasilkan oleh model. Secara spesifik, nilai parameter ini menentukan kelancaran distribusi probabilitas setiap kata kandidat untuk pembuatan teks. Nilai yang lebih besar menunjukkan nilai puncak distribusi probabilitas lebih kecil. Dalam hal ini, lebih banyak kata dengan probabilitas rendah dipilih dan konten yang dihasilkan lebih beragam. Nilai yang lebih kecil menunjukkan nilai puncak distribusi probabilitas lebih besar. Dalam hal ini, lebih banyak kata dengan probabilitas tinggi dipilih dan konten yang dihasilkan lebih akurat. Nilai valid: [0,2). Kami merekomendasikan Anda tidak menyetel parameter ini ke 0, yang tidak bermakna. | "parameters":{"temperature":0.85} |
parameters.stop | string/array | Tidak | Precision konten yang dihasilkan oleh model. Model secara otomatis berhenti menghasilkan konten ketika konten yang dihasilkan oleh model akan berisi string atau ID token yang ditentukan. Nilai parameter ini bisa berupa string atau array.
| "parameters":{"stop":["Hello","Weather"]} |
Catatan: Batas token maksimum untuk ops-qwen-turbo adalah 4.000.
Parameter respons
Parameter | Tipe | Deskripsi | Nilai contoh |
result.text | String | Teks yang dihasilkan oleh model selama interaksi saat ini. | Zhengzhou adalah... |
result.search_results | List<SearchResult> | Ketika Anda mengaktifkan pencarian web dan menyetel search_return_source ke true, hasil pencarian web dikembalikan. | [] |
result.search_results[].title | String | Judul hasil pencarian. | Cuaca hari ini di Zhengzhou |
result.search_results[].url | String | Tautan hasil pencarian. | https://xxxx.com |
result.search_results[].snippet | String | Ringkasan konten dari halaman web hasil pencarian. | Cerah di Zhengzhou. |
usage.output_tokens | Integer | Jumlah token dalam konten yang dihasilkan oleh model. | 100 |
usage.input_tokens | Integer | Jumlah token dalam konten input pengguna. | 100 |
usage.total_tokens | Integer | Jumlah total token dari input pengguna dan konten yang dihasilkan oleh model. | 200 |
Contoh permintaan cURL
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Kunci API Anda" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
"messages":[
{
"role":"system",
"content":"Anda adalah asisten AI."
},
{
"role":"user",
"content":"Apa ibu kota Provinsi Henan?"
},
{
"role":"assistant",
"content":"Zhengzhou"
},
{
"role":"user",
"content":"Bagaimana cuaca di Zhengzhou?"
}
],
"parameters":{
"search_return_result":true,
"search_top_k":5, //Parameter ini hanya mendukung model deepseek-r1.
"search_way":"normal" // Parameter ini hanya mendukung model deepseek-r1.
},
"stream":false,
"enable_search":true //Aktifkan fitur pencarian web.
}'Contoh respons
Contoh sukses
{
"request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
"latency": 564.903929,
"result": {
"text":"Menurut prakiraan cuaca terbaru, Zhengzhou akan berawan pada siang hari, dengan suhu berkisar sekitar 9°C hingga 19°C dan angin timur laut sekitar level 2...."
"search_results":[
{
"url":"https://xxxxx.com",
"title":"xxxx",
"snippet":" Cerah di Zhengzhou."
}
]
},
"usage": {
"output_tokens": 934,
"input_tokens": 798,
"total_tokens": 1732
}
}Contoh kesalahan
Jika terjadi kesalahan selama permintaan, keluaran akan memberikan alasan kesalahan melalui kode dan pesan.
{
"request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
"latency": 0,
"code": "InvalidParameter",
"message": "Kesalahan parsing JSON: Karakter tak terduga ..."
}Deskripsi kode status
Untuk informasi lebih lanjut, lihat Kode status dari Platform Terbuka Pencarian AI.