全部产品
Search
文档中心

OpenSearch:Layanan pembuatan konten

更新时间:Aug 06, 2025

Platform Terbuka Pencarian AI memungkinkan panggilan API ke layanan model besar, termasuk model besar spesifik RAG yang dibangun di atas fondasi model milik Alibaba. Layanan ini ideal untuk skenario RAG, meningkatkan akurasi jawaban dan mengurangi tingkat halusinasi saat digunakan bersama dengan layanan pemrosesan dan pengambilan dokumen.

Layanan

ID Layanan (service_id)

Deskripsi layanan

Batas QPS untuk panggilan API (Untuk Akun Alibaba Cloud dan Pengguna RAM)

Qwen3-235B-A22B

qwen3-235b-a22b

Model ini adalah model bahasa besar (LLM) generasi baru dari seri Qwen yang dilatih secara ekstensif. Qwen3 telah membuat terobosan signifikan dalam inferensi, mengikuti instruksi, kemampuan agen, dan dukungan multi-bahasa, dapat mendukung lebih dari 100 bahasa dan dialek, serta memiliki kemampuan pemahaman, inferensi, dan generasi multi-bahasa yang kuat.

3

Catatan

Untuk mengajukan QPS yang lebih tinggi, ajukan tiket.

Model Deepseek QwQ

qwq-32b

Model ini adalah model inferensi QwQ yang dilatih berdasarkan model Qwen2.5-32B dan sangat meningkatkan kemampuan inferensi model melalui Pembelajaran Penguatan. Performa model ini dalam matematika dan coding (AIME 24/25 dan LiveCodeBench) dan beberapa indikator performa umumnya, seperti IFEval dan LiveBench, telah mencapai level versi penuh DeepSeek-R1.

OpenSearch-Qwen-Turbo

ops-qwen-turbo

Memanfaatkan model bahasa besar qwen-turbo untuk supervised fine-tuning, meningkatkan kemampuan pengambilan dan mengurangi keberbahayaan.

Qwen-Turbo

qwen-turbo

Model Qwen yang menampilkan kecepatan tinggi dan biaya rendah serta cocok untuk tugas sederhana.

Qwen-Plus

qwen-plus

Model yang kinerja inferensi, biaya, dan kecepatannya berada di antara Qwen-Max dan Qwen-Turbo dan cocok untuk tugas yang cukup kompleks.

Qwen-Max

qwen-max

Model Qwen yang menampilkan performa terbaik di antara model Qwen dan cocok untuk tugas kompleks dan multi-langkah.

DeepSeek-R1

deepseek-r1

LLM yang berfokus pada tugas inferensi kompleks, berperforma baik dalam memahami instruksi kompleks dan memastikan akurasi hasil, serta mendukung fitur pencarian web.

DeepSeek-V3

deepseek-v3

Model sistem ahli campuran (MoE) yang unggul dalam teks panjang, coding, matematika, pengetahuan ensiklopedis, dan kemahiran bahasa Mandarin.

DeepSeek-R1-distill-qwen-7b

deepseek-r1-distill-qwen-7b

Model ini diperoleh dengan fine-tuning Qwen-7B berdasarkan sampel pelatihan yang dihasilkan oleh DeepSeek-R1 menggunakan teknologi penyulingan pengetahuan.

DeepSeek-R1-distill-qwen-14b

deepseek-r1-distill-qwen-14b

Model ini diperoleh dengan fine-tuning Qwen-14B berdasarkan sampel pelatihan yang dihasilkan oleh DeepSeek-R1 menggunakan teknologi penyulingan pengetahuan.

Prasyarat

  • Informasi otentikasi harus diperoleh.

    Saat memanggil layanan Platform Terbuka Pencarian AI menggunakan API, Anda perlu mengotentikasi identitas pemanggil.

  • Alamat akses layanan harus diperoleh.

    Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Dapatkan alamat pendaftaran layanan.

Deskripsi permintaan

Deskripsi umum

  • Badan permintaan tidak boleh melebihi ukuran 8 MB.

Metode permintaan HTTP

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}

Deskripsi parameter:

  • host: Alamat untuk memanggil layanan. Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Kueri titik akhir layanan.

  • workspace_name: Nama ruang kerja, seperti default.

  • service_id: ID layanan bawaan sistem, seperti ops-qwen-turbo.

Parameter permintaan

Parameter header

Otentikasi Kunci API

Parameter

Tipe

Diperlukan

Deskripsi

Contoh

Content-Type

String

Ya

Jenis permintaan. Nilai valid: application dan json.

application/json

Authorization

String

Ya

Kunci API untuk otentikasi.

Bearer OS-d1**2a

Parameter body

Parameter

Tipe

Diperlukan

Deskripsi

Contoh

messages

Daftar

Ya

Riwayat percakapan antara pengguna dan model. Setiap elemen daftar adalah objek JSON dengan kunci 'role' dan 'content'. 'role' bisa berupa 'system', 'user', atau 'assistant'.

  • 'system': menunjukkan pesan tingkat sistem, yang hanya dapat menjadi pesan pertama dalam riwayat percakapan (messages[0]). Penggunaannya bersifat opsional, tetapi jika ada, harus menjadi yang pertama dalam daftar.

  • 'user' dan 'assistant': menunjukkan dialog antara pengguna dan model. Mereka harus bergantian dalam percakapan, dengan pesan terakhir berasal dari 'user'.

stream

Boolean

Tidak

Menunjukkan apakah akan mengembalikan hasil dalam mode streaming. Secara default, ini disetel ke false.

Saat parameter ini disetel ke true, setiap keluaran adalah seluruh urutan yang dihasilkan hingga saat itu, dengan keluaran terakhir menjadi hasil lengkap akhir.

false

enable_search

Boolean

Tidak

Menunjukkan apakah akan mengaktifkan pencarian web. Nilai default: false.

Jika Anda menyetel parameter ini ke true, model besar menggunakan prompt bawaan untuk menentukan apakah akan mengaktifkan pencarian web.

Catatan

Hanya deepseek-r1 yang didukung.

false

csi_level

String

Tidak

Tingkat penyaringan moderasi konten. Nilai default: strict.

Nilai valid:

  • none

  • loose

  • strict

  • rigorous

strict

parameters

Map

Tidak

Sekumpulan parameter yang dapat disesuaikan untuk permintaan model besar.

parameters.search_return_result

Boolean

Tidak

Parameter ini berlaku hanya ketika Anda menyetel enable_search ke true. Nilai valid:

  • true: mengembalikan hasil pencarian web.

  • false: tidak mengembalikan hasil pencarian web.

false

parameters.search_top_k

Integer

Tidak

Jumlah keluaran yang dikembalikan oleh pencarian web.

Catatan

Parameter ini berlaku hanya ketika Anda menyetel enable_search ke true. Parameter ini hanya mendukung model deepseek-r1.

5

parameters.search_way

String

Tidak

Strategi pencarian web, yang sama dengan API pencarian web.

  • normal (default): Gunakan model besar untuk menulis ulang kueri, lakukan pencarian web, dan terapkan penyaringan berbasis vektor pada hasil pencarian.

  • fast: Gunakan model besar untuk menulis ulang kueri, dan lakukan pencarian web. Hasil pencarian tidak disaring.

  • full: Gunakan model besar untuk menulis ulang kueri, lakukan pencarian web, dan gunakan model besar untuk mengevaluasi dan menyaring hasil pencarian.

Catatan

Parameter ini berlaku hanya ketika Anda menyetel enable_search ke true. Parameter ini hanya mendukung model deepseek-r1.

normal

parameters.seed

Integer

Tidak

Seed acak yang digunakan selama pembuatan konten. Parameter ini mengontrol keacakan konten yang dihasilkan oleh model. Nilai valid: bilangan bulat tak bertanda 64-bit. Jika Anda menentukan seed acak, model mencoba menghasilkan konten yang sama atau serupa untuk keluaran setiap pemanggilan model. Namun, model tidak dapat menjamin bahwa keluaran persis sama untuk setiap pemanggilan model.

"parameters":{"seed":666}

parameters.max_tokens

Integer

Tidak

Jumlah maksimum token yang dapat dihasilkan oleh model. Jika Anda menggunakan model qwen-turbo, nilai maksimum dan default adalah 1500. Jika Anda menggunakan model qwen-max dan qwen-plus, nilai maksimum dan default adalah 2000.

"parameters":{"max_tokens":1500}

parameters.top_p

Float

Tidak

Ambang batas probabilitas dalam metode pengambilan sampel inti yang digunakan selama proses generasi. Misalnya, jika parameter ini disetel ke 0.8, hanya subset terkecil dari token paling mungkin yang jumlah probabilitas kumulatifnya setidaknya 0.8 yang disimpan sebagai set kandidat. Nilai valid: (0,1.0). Nilai yang lebih besar menunjukkan keacakan konten yang dihasilkan lebih tinggi. Nilai yang lebih kecil menunjukkan keacakan konten yang dihasilkan lebih rendah.

"parameters":{"top_p":0.7}

parameters.top_k

Integer

Tidak

Ukuran set kandidat tempat token diambil sampel selama proses generasi. Misalnya, jika parameter ini disetel ke 50, hanya 50 token dengan skor tertinggi yang dihasilkan pada satu waktu yang digunakan sebagai set kandidat untuk pengambilan sampel acak. Nilai yang lebih besar menunjukkan keacakan konten yang dihasilkan lebih tinggi. Nilai yang lebih kecil menunjukkan akurasi konten yang dihasilkan lebih tinggi. Jika parameter ini dibiarkan kosong atau disetel ke nilai lebih besar dari 100, kebijakan top_k dinonaktifkan. Dalam hal ini, hanya kebijakan top_p yang berlaku.

"parameters":{"top_k":50}

parameters.repetition_penalty

Float

Tidak

Tingkat pengulangan konten yang dihasilkan oleh model. Nilai yang lebih besar menunjukkan pengulangan lebih rendah. Nilai 1.0 menunjukkan tidak ada penalti. Tidak ada nilai valid yang ditentukan untuk parameter ini. Kami merekomendasikan Anda menyetel parameter ini ke nilai lebih besar dari 0.

"parameters":{"repetition_penalty":1.0}

parameters.presence_penalty

Float

Tidak

Pengulangan kata-kata dalam konten yang dihasilkan. Nilai yang lebih besar menunjukkan pengulangan lebih rendah. Nilai valid: [-2.0, 2.0].

"parameters":{"presence_penalty":1.0}

parameters.temperature

Float

Tidak

Tingkat keacakan dan keragaman konten yang dihasilkan oleh model. Secara spesifik, nilai parameter ini menentukan kelancaran distribusi probabilitas setiap kata kandidat untuk pembuatan teks. Nilai yang lebih besar menunjukkan nilai puncak distribusi probabilitas lebih kecil. Dalam hal ini, lebih banyak kata dengan probabilitas rendah dipilih dan konten yang dihasilkan lebih beragam. Nilai yang lebih kecil menunjukkan nilai puncak distribusi probabilitas lebih besar. Dalam hal ini, lebih banyak kata dengan probabilitas tinggi dipilih dan konten yang dihasilkan lebih akurat.

Nilai valid: [0,2). Kami merekomendasikan Anda tidak menyetel parameter ini ke 0, yang tidak bermakna.

"parameters":{"temperature":0.85}

parameters.stop

string/array

Tidak

Precision konten yang dihasilkan oleh model. Model secara otomatis berhenti menghasilkan konten ketika konten yang dihasilkan oleh model akan berisi string atau ID token yang ditentukan. Nilai parameter ini bisa berupa string atau array.

  • String

    Model berhenti menghasilkan konten ketika konten yang dihasilkan oleh model akan berisi kata stop yang ditentukan.

    Misalnya, jika Anda menyetel parameter ini ke Hello, model berhenti menghasilkan konten ketika konten yang dihasilkan oleh model akan berisi Hello.

  • Array

    Elemen dalam array bisa berupa ID token, string, atau array yang elemennya adalah ID token. Ketika token yang akan dihasilkan oleh model atau ID token tersebut ada dalam array stop, model berhenti menghasilkan konten.

    Misalnya, ID token Hello adalah 108386 dan ID token Weather adalah 104307. Jika nilai parameter stop disetel ke array ["Hello","Weather"] atau [108386,104307], model berhenti menghasilkan konten ketika konten akan berisi Hello atau Weather. ID token Hello adalah 108386, ID token There adalah 103924, ID token I adalah 35946, dan ID token Am Fine adalah 101243. Jika nilai parameter stop disetel ke array [[108386, 103924],[35946, 101243]], model berhenti menghasilkan konten ketika konten akan berisiHello There atau I Am Fine.

    Catatan

    Jika nilai parameter stop disetel ke array, array tersebut tidak dapat berisi ID token dan string secara bersamaan. Misalnya, Anda tidak dapat menyetel parameter stop ke ["Hello",104307].

"parameters":{"stop":["Hello","Weather"]}

Catatan: Batas token maksimum untuk ops-qwen-turbo adalah 4.000.

Parameter respons

Parameter

Tipe

Deskripsi

Nilai contoh

result.text

String

Teks yang dihasilkan oleh model selama interaksi saat ini.

Zhengzhou adalah...

result.search_results

List<SearchResult>

Ketika Anda mengaktifkan pencarian web dan menyetel search_return_source ke true, hasil pencarian web dikembalikan.

[]

result.search_results[].title

String

Judul hasil pencarian.

Cuaca hari ini di Zhengzhou

result.search_results[].url

String

Tautan hasil pencarian.

https://xxxx.com

result.search_results[].snippet

String

Ringkasan konten dari halaman web hasil pencarian.

Cerah di Zhengzhou.

usage.output_tokens

Integer

Jumlah token dalam konten yang dihasilkan oleh model.

100

usage.input_tokens

Integer

Jumlah token dalam konten input pengguna.

100

usage.total_tokens

Integer

Jumlah total token dari input pengguna dan konten yang dihasilkan oleh model.

200

Contoh permintaan cURL

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Kunci API Anda" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
      "messages":[
      {
          "role":"system",
          "content":"Anda adalah asisten AI."
      },
      {
          "role":"user",
          "content":"Apa ibu kota Provinsi Henan?"
      },
      {
          "role":"assistant",
          "content":"Zhengzhou"
      },
      {
          "role":"user",
          "content":"Bagaimana cuaca di Zhengzhou?"
      }
      ],
      "parameters":{
          "search_return_result":true,
          "search_top_k":5,  //Parameter ini hanya mendukung model deepseek-r1.
          "search_way":"normal"  // Parameter ini hanya mendukung model deepseek-r1.
      },
       "stream":false,
       "enable_search":true  //Aktifkan fitur pencarian web.
}'

Contoh respons

Contoh sukses

{
  "request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
  "latency": 564.903929,
  "result": {
    "text":"Menurut prakiraan cuaca terbaru, Zhengzhou akan berawan pada siang hari, dengan suhu berkisar sekitar 9°C hingga 19°C dan angin timur laut sekitar level 2...."
     "search_results":[
      {
        "url":"https://xxxxx.com",
        "title":"xxxx",
        "snippet":" Cerah di Zhengzhou."
      }
    ]
   },
  "usage": {
      "output_tokens": 934,
      "input_tokens": 798,
      "total_tokens": 1732
  }
}

Contoh kesalahan

Jika terjadi kesalahan selama permintaan, keluaran akan memberikan alasan kesalahan melalui kode dan pesan.

{
    "request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "Kesalahan parsing JSON: Karakter tak terduga ..."
}

Deskripsi kode status

Untuk informasi lebih lanjut, lihat Kode status dari Platform Terbuka Pencarian AI.