本文檔以千問模型的部署為例進行說明,使用 API(HTTP)調用方式協助您使用阿里雲百鍊提供的模型部署功能。
前提條件
您已經完整閱讀了模型部署簡介,熟悉如何在阿里雲百鍊平台進行模型部署的支援的模型和基本步驟。
您需要已擷取API Key並配置API Key到環境變數。請將範例程式碼中的
DASHSCOPE_API_HOST替換為擷取的 API Host。
1. 部署模型
下面的命令使用已經調優好的自訂模型qwen3-8b-ft-202511132025-0260,建立一個專屬服務qwen3-8b-ft-202511132025-0260。
擷取自訂模型 ID 的方法:前往百鍊控制台-模型調優,點擊需要部署的任务名称 -> 产出 -> 點擊藍色字型的模型名稱,進入我的模型頁面,在模型基本資料地區可查看模型 ID。
使用模型 ID 作為輸入的model_name參數,即可使用 API 部署該模型。
按預置吞吐(PTU)計費
執行以下部署命令後,即便您還沒有調用模型,模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則,再執行部署命令。
按預置吞吐計費模式按預置吞吐的使用時間長度收費,適用於追求穩定吞吐保障和高並發低延遲、且流量可預估的情境。該模式下,吞吐/並發和產生速度均為平台預置,使用者不可調。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_flash",
"model_name": "qwen-flash-2025-07-28",
"plan": "ptu",
"ptu_capacity": {
"input_tpm": 10000,
"output_tpm": 1000
}
}'按模型單元的使用時間長度計費
執行以下部署命令後,即便您還沒有調用模型,模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則,再執行部署命令。
模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。
選擇按模型單元計費計費方式,計費模式為按模型單元的使用時間長度收費,適用情境為模型調優後的大規模推理業務,資源專屬,效能和成本靈活可調;吞吐/並發和產生速度均為客戶自訂。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_plus",
"model_name": "qwen-plus-2025-12-01",
"plan": "mu",
"deploy_spec": "MU1",
"enable_thinking": true,
"capacity": 4,
"max_context_length": 10000,
"rpm_limit": 500,
"tpm_limit": 1000
}'模型單元部署模式還支援以下更多設定:
|
配置內容 |
配置詳情 |
|
配置模型推理模式 |
部分模型在以模型单元方式部署時,可配置推理模式、最長上下文等。
|
|
最長上下文 |
部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。 |
|
服務限流 |
部分模型的模型单元部署模式支援該設定,可限制模型調用的 RPM、TPM。 |
如何在 API 設定上述內容,請參考:使用 API 建立模型部署任務。
按模型 Token 使用量計費
選擇計費方式為按Token計費,計費模式為按Token用量收費,適用於高性價比訴求且對並發和延遲要求不高的情境。該模式價格優勢最高,吞吐/並發和產生速度均由平台預置,使用者不可調。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen3-8b-ft-202511132025-0260",
"plan": "lora",
"capacity": 1,
"name": "qwen3-8b-ft"
}'capacity 參數設定無效,但必須填寫。如需希望擴縮容,請前往百鍊模型部署控制台填寫表單申請。
命令執行成功後,返回如下結果:(以 Lora 部署為例)
{
"request_id": "83b173ab-2b2f-41aa-8c57-b173e8be934e",
"output":
{
"deployed_model": "qwen3-8b-ft-202511132025-0260",
"gmt_create": "2025-11-20T20:06:46.405",
"gmt_modified": "2025-11-20T20:06:46.405",
"status": "PENDING",
"model_name": "qwen3-8b-ft-202511132025-0260",
"base_model": "qwen3-8b",
"workspace_id": "llm-8v*****",
"charge_type": "post_paid",
"creator": "16542*****",
"modifier": "16542*****",
"plan": "***"
}
}其中deployed_model為專屬服務的唯一ID。
2. 查詢服務狀態
通過以下命令查詢指定專屬服務的詳細資料:
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' 命令執行成功後,返回如下結果:
{
"request_id": "ca36952d-9136-426e-ab08-68a97ad72719",
"output":
{
"deployed_model": "qwen3-8b-ft-202511132025-0260",
"gmt_create": "2025-11-20T20:32:08",
"gmt_modified": "2025-11-20T20:42:25",
"status": "RUNNING",
"model_name": "qwen3-8b-ft-202511132025-0260",
"base_model": "qwen3-8b",
"base_capacity": 2,
"capacity": 2,
"ready_capacity": 2,
"workspace_id": "llm-8v53etv3hwb8orx1",
"charge_type": "post_paid",
"creator": "1654290265984853",
"modifier": "1654290265984853",
"plan": "mu",
"model_unit_spec": "MU1"
}
}當服務狀態為RUNNING時,服務部署完成。
3. 執行推理請求
若首次使用DashScope SDK,請參考安裝SDK。
請確保 API Key 所在的業務空間與模型部署所在的業務空間相同。
通過SDK對專屬服務發起請求:
from dashscope import Generation
from http import HTTPStatus
import os
response = Generation.call(
model='qwen3-8b',
prompt='你是誰?',
enable_thinking=False,
api_key=os.getenv('DASHSCOPE_API_KEY'),
)
if response.status_code == HTTPStatus.OK:
print(response.output)
print(response.usage)
else:
print(response.code)
print(response.message)
代碼執行成功後,返回如下結果:
{"text": "我是Qwen,由阿里雲開發的超大規模語言模型。我被設計用於產生各種類型的文本,如文章、故事、詩歌等,並能根據不同的情境和需求進行對話、解答問題、提供資訊和協助等。很高興為您服務!如果您有任何問題或需要協助,請隨時告訴我。", "finish_reason": "stop", "choices": null}
{"input_tokens": 11, "output_tokens": 63, "total_tokens": 74}4. 刪除專屬服務
執行以下刪除命令後,模型部署服務將立即開始下線,且不可恢複。您將:
無法調用該模型。
部署服務停止計費。
不再使用的專屬服務,可以通過下面的命令刪除:
curl --request DELETE 'https://dashscope-intl.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' 命令執行成功後,返回以下結果:
{
"request_id": "8f726017-6042-420e-a465-0d366a3aba59",
"output":
{
"deployed_model": "qwen3-8b-ft-202511132025-0260",
"gmt_create": "2025-11-20T20:32:08",
"gmt_modified": "2025-11-27T16:35:31.591",
"status": "DELETING",
"model_name": "qwen3-8b-ft-202511132025-0260",
"base_model": "qwen3-8b",
"base_capacity": 2,
"capacity": 2,
"ready_capacity": 2,
"workspace_id": "llm-8v53etv3hwb8orx1",
"charge_type": "post_paid",
"creator": "1654290265984853",
"modifier": "1654290265984853",
"plan": "mu",
"model_unit_spec": "MU1"
}
}
刪除成功後,再使用2. 查詢服務狀態介面將無法查詢到部署模型的狀態。
API參考
詳細API調用請參考API 詳情。
常見問題
模型部署時報錯許可權不足怎麼辦?
在使用 API 進行模型部署時,需要確保:
API Key 的归属业务空间擁有管理該模型的許可權。請前往百鍊的業務空間管理頁面,檢查對應業務空間的模型部署使用權限設定。
API 呼叫報錯:
Workspace xxx does not have deployment privilege for model xxxx。在對應業務空間的操作列,單擊模型許可權流控設定。
在模型列表中找到目標模型,查看模型部署列的授權狀態。若顯示未授權,單擊操作列的編輯進行授權。
如果提示許可權不足,請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。
API Key 的归属账号在归属业务空间中擁有操作許可權。請前往百鍊控制台,點擊左下角的業務空間,切換到對應業務空間,再點擊
檢查對應業務空間的模型部署使用權限設定。API 呼叫報錯:
Workspace access denied。在左側導覽列點擊許可權管理,確認使用者列表中包含 API Key 的歸屬帳號(類型為主帳號)。
如果提示許可權不足,請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。