Layanan model bahasa besar yang didukung oleh AI Search Open Platform - OpenSearch

AI Search Open Platform memungkinkan Anda memanggil layanan large language model (LLM) melalui API. Layanan ini mencakup model bahasa besar khusus Retrieval-Augmented Generation (RAG) yang telah disesuaikan berdasarkan model dasar eksklusif Alibaba. Anda dapat menggunakan model-model ini dalam skenario RAG bersama layanan pemrosesan dan pengambilan dokumen untuk meningkatkan akurasi jawaban serta mengurangi laju halusinasi.

Layanan	ID Layanan (service_id)	Deskripsi	Batas QPS (untuk Akun Alibaba Cloud dan Pengguna RAM)
Qwen3-235B-A22B	qwen3-235b-a22b	Large language model (LLM) generasi berikutnya dalam seri Qwen. Berdasarkan pelatihan ekstensif, Qwen3 mencapai terobosan dalam inferensi, kemampuan mengikuti instruksi, fungsi agen, dan dukungan multibahasa. Model ini mendukung lebih dari 100 bahasa dan dialek, menunjukkan kemampuan kuat dalam pemahaman, penalaran, dan pembangkitan multibahasa.	3 Catatan Untuk meminta batas QPS API yang lebih tinggi, kirimkan tiket ke dukungan teknis.
OpenSearch-Qwen-Turbo	ops-qwen-turbo	Model ini menggunakan large language model Qwen-Turbo sebagai fondasinya. Model ini telah disesuaikan menggunakan Supervised Learning untuk meningkatkan kemampuan pengambilan dan mengurangi pembangkitan konten berbahaya.
Qwen-Turbo	qwen-turbo	Model tercepat dan paling hemat biaya dalam seri Qwen. Cocok untuk tugas-tugas simple.
Qwen-Plus	qwen-plus	Model seimbang yang menawarkan performa, biaya, dan kecepatan di antara Qwen-Max dan Qwen-Turbo. Cocok untuk tugas-tugas dengan kompleksitas sedang.
Qwen-Max	qwen-max	Model dengan performa tertinggi dalam seri Qwen. Cocok untuk tugas-tugas kompleks multi-langkah.
DeepSeek-R1	deepseek-r1	Large language model yang mengkhususkan diri pada tugas penalaran kompleks. Model ini unggul dalam memahami instruksi rumit, memastikan akurasi hasil, dan mendukung fitur pencarian web.
DeepSeek-V3	deepseek-v3	DeepSeek-V3 adalah model Mixture-of-Experts (MoE) yang unggul dalam memproses teks panjang, kode, matematika, dan pengetahuan ensiklopedis, dengan kemampuan luar biasa dalam bahasa Tionghoa.
DeepSeek-R1-distill-qwen-7b	deepseek-r1-distill-qwen-7b	Model yang dibuat dengan menggunakan penyulingan pengetahuan untuk menyempurnakan Qwen-7B menggunakan sampel pelatihan yang dihasilkan oleh DeepSeek-R1.
DeepSeek-R1-distill-qwen-14b	deepseek-r1-distill-qwen-14b	Model yang dibuat dengan menggunakan penyulingan pengetahuan untuk menyempurnakan Qwen-14B menggunakan sampel pelatihan yang dihasilkan oleh DeepSeek-R1.
DeepSeek-V4-Pro	deepseek-v4-pro	Model besar Mixture-of-Experts (MoE) unggulan dengan total 1,6T parameter dan 49B parameter aktif, secara native mendukung konteks ultra-panjang hingga jutaan token. Dibangun di atas data pelatihan berkualitas tinggi dalam jumlah besar, model ini memiliki kemampuan tingkat atas dalam logika matematika, penalaran kompleks, pengkodean profesional, dan analisis mendalam teks panjang. Ideal untuk skenario lanjutan seperti penelitian ilmiah tingkat tinggi, tugas kantor kompleks, dan agen cerdas mendalam.
DeepSeek-V4-Flash	deepseek-v4-flash	Model Mixture-of-Experts (MoE) efisien dan ringan dengan total 284B parameter dan 13B parameter aktif, secara native mendukung konteks ultra-panjang hingga jutaan token. Model ini menawarkan inferensi cepat, latensi rendah, dan biaya rendah. Dengan kemampuan keseluruhan yang seimbang, model ini dirancang untuk tugas ringan berkonkurensi tinggi dan cocok untuk skenario umum seperti percakapan harian, pembuatan konten, RAG dasar, dan pemrosesan teks batch.

Prasyarat

Dapatkan kredensial autentikasi

Platform terbuka AI Search memerlukan Kunci API untuk autentikasi. Untuk petunjuknya, lihat Dapatkan Kunci API.
Dapatkan titik akhir layanan

Anda dapat memanggil layanan melalui jaringan publik atau VPC. Untuk detailnya, lihat Dapatkan titik akhir layanan.

Permintaan

Catatan umum

Ukuran badan permintaan tidak boleh melebihi 8 MB.

Metode HTTP

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}

Path parameters

host: Titik akhir layanan. Anda dapat memanggil API melalui internet atau dari dalam VPC. Untuk informasi lebih lanjut, lihat Dapatkan titik akhir layanan.

Pada halaman API keys, di bagian Access Domain Names, Anda dapat menemukan Public API Domain Name dan Private API Domain Name (VPC). Pilih nama domain yang sesuai sebagai host. Anda dapat beralih ke ruang kerja target menggunakan daftar drop-down di bagian atas halaman.
workspace_name: Nama ruang kerja. Contoh: default.
service_id: ID layanan bawaan. Contoh: ops-qwen-turbo.

Parameter permintaan

Parameter header

Autentikasi kunci API

Parameter	Tipe	Wajib	Deskripsi	Contoh
Content-Type	String	Ya	Format permintaan. Harus berupa `application/json`.	application/json
Authorization	String	Ya	Kunci API untuk autentikasi.	Bearer OS-d1**2a

Parameter badan

Parameter	Tipe	Wajib	Deskripsi	Contoh
messages	List	Ya	Riwayat percakapan antara pengguna dan model. Setiap elemen dalam daftar adalah objek dengan kunci `role` dan `content`. Peran yang tersedia adalah `system`, `user`, dan `assistant`. `system`: Pesan tingkat sistem. Peran ini hanya dapat digunakan untuk pesan pertama dalam riwayat (`messages[0]`). Penggunaan peran `system` bersifat opsional, tetapi jika ada, harus berada di awal daftar. `user` dan `assistant`: Mewakili dialog antara pengguna dan model. Peran-peran ini harus bergantian untuk mensimulasikan percakapan. `role` pada pesan terakhir harus `user`.
stream	Boolean	Tidak	Menentukan apakah respons dikembalikan secara streaming. Nilai default-nya adalah `false`. Jika diatur ke `true`, respons akan dialirkan, dengan setiap chunk berisi teks kumulatif yang dihasilkan hingga titik tersebut.	false
enable_search	Boolean	Tidak	Menentukan apakah pencarian web diaktifkan. Nilai default-nya adalah `false`. Jika diatur ke `true`, large language model menggunakan prompt internal untuk menentukan apakah pencarian web diperlukan. Catatan Fitur ini saat ini hanya didukung oleh model deepseek-r1.	false
csi_level	String	Tidak	Tingkat moderasi konten. Default: `strict`. Nilai yang valid: `none`: Tanpa moderasi konten. `loose`: Penyaringan longgar. `strict`: Penyaringan ketat. `rigorous`: Penyaringan sangat ketat.	strict
parameters	Map	Tidak	Peta parameter yang dapat disesuaikan untuk large language model.	N/A
parameters.search_return_result	Boolean	Tidak	Parameter ini hanya berlaku ketika `enable_search` bernilai `true`. `true`: Mengembalikan hasil pencarian web. `false`: Tidak mengembalikan hasil pencarian web.	false
parameters.search_top_k	Integer	Tidak	Jumlah hasil pencarian web yang dikembalikan. Catatan Parameter ini hanya berlaku ketika `enable_search` bernilai `true`. Hanya didukung oleh model deepseek-r1.	5
parameters.search_way	String	Tidak	Strategi pencarian web, yang sama dengan strategi pada API pencarian web. `normal` (Default): Model menulis ulang kueri, melakukan pencarian web, dan menyaring hasilnya menggunakan vektorisasi. `fast`: Model menulis ulang kueri dan melakukan pencarian web. Hasil pencarian tidak disaring. `full`: Model menulis ulang kueri, melakukan pencarian web, lalu menggunakan model untuk mengevaluasi dan menyaring hasilnya. Catatan Parameter ini hanya berlaku ketika `enable_search` bernilai `true`. Hanya didukung oleh model deepseek-r1.	normal
parameters.seed	Integer	Tidak	Seed bilangan acak untuk pembangkitan. Parameter ini mengontrol tingkat keacakan output model. Seed harus berupa bilangan bulat tak bertanda 64-bit. Ketika seed diberikan, model berusaha menghasilkan output yang sama atau mirip, tetapi output deterministik tidak dijamin.	"parameters":{"seed":666}
parameters.max_tokens	Integer	Tidak	Jumlah maksimum token yang akan dihasilkan. Untuk Qwen-Turbo, nilai maksimum dan default-nya adalah 1.500. Untuk Qwen-Max dan Qwen-Plus, nilai maksimum dan default-nya adalah 2.000.	"parameters":{"max_tokens":1500}
parameters.top_p	Float	Tidak	Ambang batas probabilitas untuk pengambilan sampel inti. Misalnya, nilai `0,8` berarti hanya token dari set terkecil yang memiliki probabilitas kumulatif 80% atau lebih yang dipertimbangkan untuk pengambilan sampel. Nilainya harus berada dalam rentang (0, 1,0). Nilai yang lebih tinggi meningkatkan keacakan, sedangkan nilai yang lebih rendah menguranginya.	"parameters":{"top_p":0.7}
parameters.top_k	Integer	Tidak	Ukuran set kandidat untuk pengambilan sampel. Misalnya, nilai `50` berarti hanya 50 token paling mungkin yang digunakan sebagai set kandidat untuk pengambilan sampel acak. Nilai yang lebih tinggi meningkatkan keacakan, sedangkan nilai yang lebih rendah meningkatkan determinisme. Catatan: Jika `top_k` tidak ditentukan atau nilainya lebih besar dari 100, kebijakan ini dinonaktifkan, dan hanya kebijakan `top_p` yang berlaku.	"parameters":{"top_k":50}
parameters.repetition_penalty	Float	Tidak	Mengontrol penalti untuk pengulangan token dalam suatu urutan. Nilai yang lebih tinggi mengurangi pengulangan. Nilai `1,0` berarti tanpa penalti. Nilainya harus lebih besar dari 0.	"parameters":{"repetition_penalty":1.0}
parameters.presence_penalty	Float	Tidak	Mengontrol penalti untuk pengulangan token di seluruh output. Nilai yang lebih tinggi mengurangi pengulangan. Nilainya harus berada dalam rentang [-2,0, 2,0].	"parameters":{"presence_penalty":1.0}
parameters.temperature	Float	Tidak	Mengontrol tingkat keacakan dan keragaman dalam output. Nilai suhu yang lebih tinggi meratakan distribusi probabilitas token kandidat, sehingga kata-kata yang kurang mungkin menjadi lebih mungkin dan meningkatkan keragaman. Nilai yang lebih rendah mempertajam puncak distribusi, sehingga kata-kata dengan probabilitas tinggi menjadi lebih mungkin dan meningkatkan determinisme. Nilainya harus berada dalam rentang [0, 2). Nilai 0 tidak disarankan.	"parameters":{"temperature":0.85}
parameters.stop	string/array	Tidak	Memberikan kontrol presisi dengan menghentikan pembangkitan sebelum model menghasilkan string atau ID token tertentu. Konten yang dihasilkan tidak akan menyertakan urutan stop tersebut. Nilainya dapat berupa string atau array. tipe string Model berhenti ketika akan menghasilkan kata stop yang ditentukan. Misalnya, jika `stop` adalah "Hello", pembangkitan berhenti tepat sebelum mengeluarkan "Hello". tipe array Elemennya dapat berupa string, ID token, atau array ID token. Pembangkitan berhenti ketika token berikutnya yang akan dihasilkan (atau ID-nya) ada dalam array stop. Misalnya, jika Anda mengatur `stop` menjadi `["hello","weather"]` atau `[108386,104307]`, model akan berhenti ketika akan menghasilkan "hello" atau "weather". Jika Anda mengatur `stop` menjadi `[[108386, 103924],[35946, 101243]]`, model akan berhenti ketika akan menghasilkan "hello there" atau "I'm fine". Catatan Saat `stop` berupa array, Anda tidak boleh mencampur string dan ID token dalam array tingkat atas yang sama. Misalnya, `["Hello", 104307]` tidak valid.	"parameters":{"stop":["Hello","Weather"]}

Catatan

Batas token maksimum untuk ops-qwen-turbo adalah 4.000.

Parameter respons

Parameter	Tipe	Deskripsi	Contoh
result.text	String	Teks yang dihasilkan oleh model.	Zhengzhou adalah sebuah...
result.search_results	List<SearchResult>	Jika `enable_search` bernilai `true` dan `parameters.search_return_result` bernilai `true`, bidang ini berisi hasil pencarian web.	[]
result.search_results[].title	String	Judul hasil pencarian.	Cuaca hari ini di Zhengzhou
result.search_results[].url	String	URL hasil pencarian.	https://xxxx.com
result.search_results[].snippet	String	Cuplikan singkat dari konten halaman web hasil pencarian.	Cuaca di Zhengzhou hari ini cerah.
usage.output_tokens	Integer	Jumlah token dalam teks yang dihasilkan.	100
usage.input_tokens	Integer	Jumlah token dalam prompt input.	100
usage.total_tokens	Integer	Total jumlah token untuk permintaan (input dan output).	200

Contoh permintaan cURL

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
      "messages":[
      {
          "role":"system",
          "content":"You are a helpful assistant."
      },
      {
          "role":"user",
          "content":"What is the capital of Henan Province?"
      },
      {
          "role":"assistant",
          "content":"Zhengzhou"
      },
      {
          "role":"user",
          "content":"What is the weather like in Zhengzhou today?"
      }
      ],
      "parameters":{
          "search_return_result":true,
          "search_top_k":5,
          "search_way":"normal"
      },
       "stream":false,
       "enable_search":true
}'

Contoh respons

Contoh respons sukses

{
  "request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
  "latency": 564.903929,
  "result": {
    "text":"Menurut prakiraan cuaca terbaru, hari ini di Zhengzhou akan berawan, dengan suhu antara 9°C dan 19°C, serta angin timur laut ringan...",
     "search_results":[
      {
        "url":"https://xxxxx.com",
        "title":"xxxx",
        "snippet":"Cuaca di Zhengzhou hari ini cerah."
      }
    ]
   },
  "usage": {
      "output_tokens": 934,
      "input_tokens": 798,
      "total_tokens": 1732
  }
}

Contoh respons error

Jika terjadi error, respons akan mencakup code dan message yang menjelaskan error tersebut.

{
    "request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Unexpected character ..."
}

Kode status

Untuk informasi lebih lanjut, lihat Kode status untuk AI Search Open Platform.