使用API調用AI搜尋開放平台的大模型內容產生服務-智能OpenSearch OpenSearch-阿里雲

AI搜尋開放平台支援通過API的方式調用大模型服務，包含基於阿里巴巴自研模型底座微調的RAG專屬大模型，可結合文檔處理、檢索服務等，在RAG情境中廣泛應用，提升答案的準確率，降低幻覺率。

服務名稱	服務ID （service_id）	服務描述	API調用QPS限制（含主帳號與RAM子帳號）
Qwen3-235B-A22B	qwen3-235b-a22b	新一代Qwen系列大型語言模型，基於廣泛的訓練，Qwen3在推理、指令跟隨、Agent能力和多語言支援方面取得了突破性進展，可支援100多種語言和方言，具備強大的多語言理解、推理和產生能力。	3 說明如需擴充QPS，請通過工單聯絡支援人員協助。
QwQ深度思考模型	qwq-32b	基於Qwen2.5-32B模型訓練的QwQ推理模型，通過強化學習大幅度提升了模型推理能力。模型數學代碼等核心指標（AIME 24/25、LiveCodeBench）以及部分通用指標（IFEval、LiveBench等）達到DeepSeek-R1 滿血版水平。
OpenSearch-千問-Turbo	ops-qwen-turbo	以qwen-turbo大規模語言模型為模型底座，進行有監督的模型微調，強化檢索增強，減少有害性。
千問-Turbo	qwen-turbo	千問系列速度最快、成本極低的模型，適合簡單任務。
千問-Plus	qwen-plus	能力均衡，推理效果、成本和速度介於千問-Max和千問-Turbo之間，適合中等複雜任務。
千問-Max	qwen-max	千問系列效果最好的模型，適合複雜、多步驟的任務。
DeepSeek-R1	deepseek-r1	專註於複雜推理任務的大語言模型，在複雜指令理解、結果準確性等方面表現較突出，並支援開啟連網搜尋功能。
DeepSeek-V3	deepseek-v3	DeepSeek-V3是一款MoE模型，在長文本、代碼、數學、百科、中文能力上表現優秀。
DeepSeek-R1-distill-qwen-7b	deepseek-r1-distill-qwen-7b	基於知識蒸餾技術，通過使用DeepSeek-R1產生的訓練樣本對Qwen-7B微調訓練的模型。
DeepSeek-R1-distill-qwen-14b	deepseek-r1-distill-qwen-14b	基於知識蒸餾技術，通過使用DeepSeek-R1產生的訓練樣本對Qwen-14B微調訓練的模型。

前提條件

擷取身份鑒權資訊
通過API調用AI搜尋開放平台服務時，需要對調用者身份進行鑒權，如何擷取鑒權資訊請參見擷取API-KEY。
擷取服務調用地址
支援通過公網和VPC兩種方式調用服務，詳情請參見擷取服務接入地址。

請求說明

公用說明

請求body最大不能超過8MB。

HTTP請求方式

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}

參數說明：

host：調用服務的地址，支援通過公網和VPC兩種環境調用API服務，可參見擷取服務接入地址。
workspace_name：工作空間名稱，例如default。
service_id：系統內建服務id，例如ops-qwen-turbo。

請求參數

Header參數

API-KEY認證

參數	類型	必填	描述	樣本值
Content-Type	String	是	請求類型：application/json	application/json
Authorization	String	是	API-Key	Bearer OS-d1**2a

Body參數

參數	類型	必填	描述	樣本值
messages	List	是	使用者與模型的對話歷史。list中的每個元素形式為{"role"：角色, "content": 內容}，角色當前可選值：system、user、assistant。 system：表示系統級訊息，只能用於對話歷史的第一條（messages[0]）。使用system角色是可選的，如果存在，必須位於列表的最開始。 user和assistant：表示使用者和模型的對話。它們應交替出現在對話中，類比實際對話流程，最後一個message的role必須為user。
stream	Boolean	否	是否流式返回，預設為false。當為true時，每次輸出為當前產生的整個序列，最後一次輸出為最終全部產生結果。	false
enable_search	Boolean	否	是否連網搜尋，預設為false。當為true時，大模型會使用內部的prompt，判斷是否需要進行連網搜尋。說明當前只支援deepseek-r1。	false
csi_level	String	否	綠網過濾層級，預設為strict 可選項有： none ：無綠網過濾。 loose：寬鬆過濾。 strict：嚴格過濾。 rigorous：極嚴過濾。	strict
parameters	Map	否	請求大模型可調整參數。	無
parameters.search_return_result	Boolean	否	僅當enable_search為true時，該參數生效。 true：返回連網搜尋結果。 false：不返回連網搜尋結果。	false
parameters.search_top_k	Integer	否	連網搜尋返回結果數量。說明僅當enable_search為true時，該參數生效。該參數只支援deepseek-r1模型。	5
parameters.search_way	String	否	連網搜尋策略，同連網搜尋介面。 normal:（預設值）正常模式：會使用大模型對query進行重寫，並進行連網搜尋，對搜尋結果進行向量化過濾. fast：急速模式：會使用大模型對query進行重寫，並進行連網搜尋，不會對搜尋結果進行過濾。 full：全功能模式：會使用大模型對query進行重寫，並進行連網搜尋，使用大模型對搜尋結果進行評判和過濾。說明僅當enable_search為true時，該參數生效。該參數只支援deepseek-r1模型。	normal
parameters.seed	Integer	否	產生時使用的隨機數種子，使用者控制模型產生內容的隨機性。seed支援無符號64位整數。在使用seed時，模型將儘可能產生相同或相似的結果，但目前不保證每次產生的結果完全相同。	"parameters":{"seed":666}
parameters.max_tokens	Integer	否	用於限制模型產生token的數量，表示產生token個數的上限。其中qwen-turbo最大值和預設值為1500，qwen-max和qwen-plus最大值和預設值均為2000。	"parameters":{"max_tokens":1500}
parameters.top_p	Float	否	產生時，核採樣方法的機率閾值。例如，取值為0.8時，僅保留累計機率之和大於等於0.8的機率分布中的token，作為隨機採樣的候選集。取值範圍為（0,1.0），取值越大，產生的隨機性越高；取值越低，產生的隨機性越低。注意，取值不要大於等於1。	"parameters":{"top_p":0.7}
parameters.top_k	Integer	否	產生時，採樣候選集的大小。例如，取值為50時，僅將單次產生中得分最高的50個token組成隨機採樣的候選集。取值越大，產生的隨機性越高；取值越小，產生的確定性越高。注意：如果top_k參數為空白或者top_k的值大於100，表示不啟用top_k策略，此時僅有top_p策略生效。	"parameters":{"top_k":50}
parameters.repetition_penalty	Float	否	用於控制模型產生時連續序列中的重複度。提高repetition_penalty時可以降低模型產生的重複度。1.0表示不作懲罰。沒有嚴格的取值範圍，只要大於0即可。	"parameters":{"repetition_penalty":1.0}
parameters.presence_penalty	Float	否	使用者控制模型產生時整個序列中的重複度。提高presence_penalty時可以降低模型產生的重複度，取值範圍 [-2.0, 2.0]。	"parameters":{"presence_penalty":1.0}
parameters.temperature	Float	否	用於控制隨機性和多樣性的程度。具體來說，temperature值控制了產生文本時對每個候選詞的機率分布進行平滑的程度。較高的temperature值會降低機率分布的峰值，使得更多的低機率詞被選擇，產生結果更加多樣化；而較低的temperature值則會增強機率分布的峰值，使得高機率詞更容易被選擇，產生結果更加確定。取值範圍：[0, 2)，不建議取值為0，無意義。	"parameters":{"temperature":0.85}
parameters.stop	string/array	否	stop參數用於實現內容產生過程的精確控制，在模型產生的內容即將包含指定的字串或token_id時自動停止，產生的內容不包含指定的內容。stop可以為string類型或array類型。 string類型當模型將要產生指定的stop詞語時停止。例如將stop指定為"你好"，則模型將要產生“你好”時停止。 array類型 array中的元素可以為token_id或者字串，或者元素為token_id的array。當模型將要產生的token或其對應的token_id在stop中時，模型產生將會停止。例如將stop指定為`["你好","天氣"]`或者`[108386,104307]`，則模型將要產生“你好”或者“天氣”時停止。如果將stop指定為`[[108386, 103924],[35946, 101243]]`，則模型將要產生“你好啊”或者“我很好”時停止。說明 stop為array類型時，不可以將token_id和字串同時作為元素輸入，比如不可以指定stop為`["你好",104307]`。	"parameters":{"stop":["你好","天氣"]}

說明

ops-qwen-turbo的最大tokens限制為4000。

返回參數

參數	類型	描述	樣本值
result.text	String	本次模型產生的文本。	鄭州是一個...
result.search_results	List<SearchResult>	當開啟連網搜尋時，參數search_return_source=true返回連網搜尋結果。	[]
result.search_results[].title	String	搜尋結果標題。	鄭州今日天氣
result.search_results[].url	String	搜尋結果連結。	https://xxxx.com
result.search_results[].snippet	String	搜尋結果網頁內容簡要。	鄭州今日天氣晴
usage.output_tokens	Integer	模型產生內容的Token長度。	100
usage.input_tokens	Integer	使用者輸入內容的Token長度。	100
usage.total_tokens	Integer	使用者輸入和模型產生內容的總Token數。	200

Curl請求樣本

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer 您的API-KEY" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
      "messages":[
      {
          "role":"system",
          "content":"你是一個機器人助手"
      },
      {
          "role":"user",
          "content":"河南的省會是哪裡"
      },
      {
          "role":"assistant",
          "content":"鄭州"
      },
      {
          "role":"user",
          "content":"鄭州今天天氣如何"
      }
      ],
      "parameters":{
          "search_return_result":true,
          "search_top_k":5,  //該參數只支援deepseek-r1模型
          "search_way":"normal"  //該參數只支援deepseek-r1模型
      },
       "stream":false,
       "enable_search":true  //開啟連網搜尋功能
}'

響應樣本

正常響應樣本

{
  "request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
  "latency": 564.903929,
  "result": {
    "text":"根據最新的天氣預報，鄭州市今天白天陰天，氣溫大約在9°C到19°C之間，東北風2級左右......"
     "search_results":[
      {
        "url":"https://xxxxx.com",
        "title":"xxxx",
        "snippet":"鄭州今日天氣晴"
      }
    ]
   },
  "usage": {
      "output_tokens": 934,
      "input_tokens": 798,
      "total_tokens": 1732
  }
}

異常響應樣本

在訪問請求出錯的情況下，輸出的結果中會通過code和message指明出錯原因。

{
    "request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Unexpected character ..."
}

狀態代碼說明

請參見AI搜尋開放平台狀態代碼說明。