建立一個新的模型部署任務。
前提條件
-
您已經閱讀了模型部署簡介和使用 API 進行模型部署的相關內容,掌握了模型部署的使用方法,並熟悉了在阿里雲百鍊平台上進行模型部署的基本步驟。
-
已配置百鍊的 API-KEY, 請參考擷取API Key。
建立模型部署任務
地址
POST https://dashscope-intl.aliyuncs.com/api/v1/deployments
請求樣本
按預置吞吐(PTU)計費
執行以下部署命令後,即便您還沒有調用模型,模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則,再執行部署命令。
按預置吞吐計費模式按預置吞吐的使用時間長度收費,適用於追求穩定吞吐保障和高並發低延遲、且流量可預估的情境。該模式下,吞吐/並發和產生速度均為平台預置,使用者不可調。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_flash",
"model_name": "qwen-flash-2025-07-28",
"plan": "ptu",
"ptu_capacity": {
"input_tpm": 10000,
"output_tpm": 1000
}
}'按模型單元的使用時間長度計費
執行以下部署命令後,即便您還沒有調用模型,模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則,再執行部署命令。
模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。
選擇按模型單元計費計費方式,計費模式為按模型單元的使用時間長度收費,適用情境為模型調優後的大規模推理業務,資源專屬,效能和成本靈活可調;吞吐/並發和產生速度均為客戶自訂。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_plus",
"model_name": "qwen-plus-2025-12-01",
"plan": "mu",
"deploy_spec": "MU1",
"enable_thinking": true,
"capacity": 4,
"max_context_length": 10000,
"rpm_limit": 500,
"tpm_limit": 1000
}'模型單元部署模式還支援以下更多設定:
|
配置內容 |
配置詳情 |
|
配置模型推理模式 |
部分模型在以模型单元方式部署時,可配置推理模式、最長上下文等。
|
|
最長上下文 |
部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。 |
|
服務限流 |
部分模型的模型单元部署模式支援該設定,可限制模型調用的 RPM、TPM。 |
如何在 API 設定上述內容,請參考:使用 API 建立模型部署任務。
按模型 Token 使用量計費
選擇計費方式為按Token計費,計費模式為按Token用量收費,適用於高性價比訴求且對並發和延遲要求不高的情境。該模式價格優勢最高,吞吐/並發和產生速度均由平台預置,使用者不可調。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen3-8b-ft-202511132025-0260",
"plan": "lora",
"capacity": 1,
"name": "qwen3-8b-ft"
}'capacity 參數設定無效,但必須填寫。如需希望擴縮容,請前往百鍊模型部署控制台填寫表單申請。
請求參數
|
參數 |
類型 |
傳參方式 |
必選 |
說明 |
|||||||||||
|
model_name |
String |
body |
是 |
||||||||||||
|
plan |
String |
body |
是 |
部署方案,支援以下計費模式:
調優後的模型支援的部署方式可以在我的模型中快速查詢到。 說明
CosyVoice 系列調優模型當前僅支援 |
|||||||||||
|
name |
String |
body |
是 |
模型的控制台顯示名稱 |
|||||||||||
|
capacity |
Integer |
body |
否 |
僅 說明
CosyVoice 系列模型當前提供以下兩種部署模板,對應的
|
|||||||||||
|
billing_method |
String |
body |
否 |
僅 |
|||||||||||
|
deploy_spec |
String |
body |
否 |
僅 具體支援情況請參考:模型單元部署的功能支援情況。 |
當設定 說明
可通過擷取可以部署的模型列表介面返回的 |
||||||||||
|
enable_thinking |
Boolean |
body |
否 |
部分模型支援,可設定為 |
|||||||||||
|
max_context_length |
Number |
body |
否 |
部分模型支援。範例: |
|||||||||||
|
rpm_limit |
Number |
body |
否 |
部分模型支援, requests per minute,每分鐘請求數。 |
|||||||||||
|
tpm_limit |
Number |
body |
否 |
部分模型支援, token per minute,每分鐘 Token 使用量。 |
|||||||||||
|
ptu_capacity |
Object |
body |
否 |
僅 具體支援情況請參考:PTU部署的功能支援情況。 如果不填寫該參數,將預設按照 |
當設定 範例: |
||||||||||
|
ptu_capacity.input_tpm |
Number |
body |
否 |
所有模型支援,input token pre-minute,部署的模型每分鐘支援的最大輸入 Token 量。 |
|||||||||||
|
ptu_capacity.output_tpm |
Number |
body |
否 |
所有模型支援,output token pre-minute,部署的模型每分鐘支援的最大輸出 Token 量。 |
|||||||||||
|
ptu_capacity.thinking_output_tpm |
Number |
body |
否 |
部分模型支援,thinking output token pre-minute,部署的模型每分鐘支援的預置思考最大輸出 Token 量。 |
|||||||||||
|
suffix |
String |
body |
否 |
模型部署後,將產生新的模型名稱,suffix 用於指定新模型名稱的尾碼,最大長度為8個字元且需全域唯一。每個模型在首次部署時,可以不指定尾碼。如果需要對同一模型進行多次部署,則必須設定尾碼以便於區分。 參考輸出參數 deployed_model。 |
|||||||||||
支援的模型
點擊這裡查看支援情況與計費
按使用時間長度計費(預置吞吐)
費用 = 使用時間長度 × (輸入 TPM 單價 × 輸入 TPM + 輸出 TPM 單價 × 輸出 TPM)
後付費按小時計算:使用時間長度單位為小時,單價取下表"持續 1 小時"列;預付費按天計算:使用時間長度單位為天,單價取下表"持續 1 天"列。
-
預付費訂單支付後即時生效,有效期間 N 天至第 N 天 23:59 結束。若在 22:00 後下單,到期日將自動順延1天。
-
預付費訂單到期後,將延後2小時停止服務,停止後資源保留14小時後釋放。
-
預付費訂單無法提前終止服務。
-
後付費時,如果賬戶欠費,部署的資源將保留並繼續計費 24 小時,之後自動釋放資源。
當模型輸入超過最長輸入 Token 或 超出購買的 TPM 量時,相關調用將自動切換為當前模型的隨用隨付模式。此時,推理效能可能下降,限流將受業務空間中當前快照模型的公用流量的管控,費用按模型調用(隨用隨付)標準計收。
-
此時,調用 API 返回 Header 將包含:
x-dashscope-ptu-overflow:true。 -
TPM 統計請前往:模型監控(北京)。
縮容情境(降配)的具體降費退費規則請參考:降配退款規則說明。
新加坡
千問
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
千問3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
128,000 |
$1.2 |
$0.72 |
$14.4 |
$8.64 |
|
千問3.5-Plus-2026-04-20 |
qwen3.5-plus-2026-04-20 |
128,000 |
$0.96 |
$0.576 |
$11.52 |
$6.912 |
千問VL
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
千問3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
128,000 |
$0.48 |
$0.384 |
$5.76 |
$4.608 |
DeepSeek
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
DeepSeek-v3.2 |
deepseek-v3.2 |
64,000 |
$2.05 |
$0.616 |
$24.62 |
$7.387 |
華北2(北京)
千問
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
千問3.7-Max-2026-05-20 |
qwen3.7-max-2026-05-20 |
128,000 |
$3.96 |
$1.188 |
$47.53 |
$14.258 |
|
千問3.6-Flash-2026-04-16 |
qwen3.6-flash-2026-04-16 |
128,000 |
$0.4 |
$0.238 |
$4.75 |
$2.852 |
|
千問3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
128,000 |
$0.67 |
$0.397 |
$7.93 |
$4.753 |
|
千問3.5-Plus-2026-04-20 |
qwen3.5-plus-2026-04-20 |
128,000 |
$0.26 |
$0.16 |
$3.17 |
$1.9 |
|
千問3-Max-2025-09-23 |
qwen3-max-2025-09-23 |
128,000 |
$1.11 |
$0.45 |
$13.32 |
$5.4 |
|
千問-Flash-2025-07-28 |
qwen-flash-2025-07-28 |
128,000 |
$0.06 |
$0.06 |
$0.72 |
$0.72 |
|
千問-Plus-2025-12-01 |
qwen-plus-2025-12-01 |
128,000 |
$0.28 |
非思考:$0.07 思考:$0.28 |
$3.36 |
非思考:$0.84 思考:$3.36 |
DeepSeek
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
DeepSeek-v4-Pro |
deepseek-v4-pro |
64,000 |
$5.94 |
$1.188 |
$71.3 |
$14.26 |
|
DeepSeek-v3.2 |
deepseek-v3.2 |
64,000 |
$1.04 |
$0.16 |
$12.48 |
$1.92 |
|
DeepSeek-v3 |
deepseek-v3 |
64,000 |
$0.99 |
$0.396 |
$11.9 |
$4.75 |
千問VL
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
千問3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
128,000 |
$0.35 |
$0.35 |
$4.2 |
$4.2 |
更多模型
|
模型名稱 |
模型代碼 |
最長輸入Token |
後付費輸入 Per 10K TPM/小時 |
後付費輸出 Per 1K TPM/小時 |
預付費輸入 Per 10K TPM/天 |
預付費輸出 Per 1K TPM/天 |
|
GLM-5.1 |
glm-5.1 |
64,000 |
$2.97 |
$1.19 |
$35.65 |
$14.26 |
按使用時間長度計費(模型單元)
費用 = 使用時間長度(小時)× 模型單元數量 × 模型單元單價
"模型單元單價"在後付費情境下取下表"小時單價"列;預付費按月計費時,公式改為 包月數 × 模型單元數量 × 月單價。
-
預付費購買的首月,如在首月內提前退訂,日單價(≈ 月單價 / 30)將按 1.2 倍計費(不滿一天按一天計費)
模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。
新加坡
文本產生
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
Qwen3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
MU1 x 8 |
$88 |
$41,832 |
|
Qwen3.5-39B-A17B |
qwen3.5-397b-a17b |
MU2 x 8 |
$112 |
$52,392 |
|
Qwen3.5-35B-A3B |
qwen3.5-35b-a3b |
MU2 x 8 |
$112 |
$52,392 |
|
Qwen3-32B |
qwen3-32b |
MU1 x 4 |
$44 |
$20,916 |
|
MU2 x 8 |
$112 |
$52,392 |
||
|
Qwen3-14B |
qwen3-14b |
MU1 x 4 |
$44 |
$20,916 |
|
GLM-5.1 |
glm-5.1 |
MU2 x 8 |
$112 |
$52,392 |
|
DeepSeek-V4-Flash |
deepseek-v4-flash |
MU1 x 8 |
$88 |
$41,832 |
多模態
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
Qwen3-VL-32B-Instruct |
qwen3-vl-32b-instruct |
MU2 x 8 |
$112 |
$52,392 |
|
Qwen3-VL-8B-Instruct |
qwen3-vl-8b-instruct |
MU1 x 2 |
$22 |
$10,458 |
模型類型:
-
Instruct - 模型部署後以非思考模式進行推理。
華北2(北京)
文本產生
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
Qwen3.6-35B-A3B |
qwen3.6-35b-a3b |
MU8 x 1 |
$6.464 |
$3,080.477 |
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.6-27B |
qwen3.6-27b |
MU9 x 1 |
$7.014 |
$3,383.024 |
|
Qwen3.6-Flash-2026-04-16 |
qwen3.6-flash-2026-04-16 |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
Qwen3.5-397B-A17B |
qwen3.5-397b-a17b |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
MU3 x 8 |
$150.72 |
$72,577.152 |
||
|
MU6 x 16 |
$55.008 |
$26,599.92 |
||
|
Qwen3.5-122B-A10B |
qwen3.5-122b-a10b |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
MU6 x 16 |
$55.008 |
$26,599.92 |
||
|
MU9 x 2 |
$14.028 |
$6,766.048 |
||
|
Qwen3.5-35B-A3B |
qwen3.5-35b-a3b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
MU8 x 1 |
$6.464 |
$3,080.477 |
||
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-27B |
qwen3.5-27b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-9B |
qwen3.5-9b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU8 x 1 |
$6.464 |
$3,080.477 |
||
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-Flash-2026-02-23 |
qwen3.5-flash-2026-02-23 |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3.5-Plus-2026-02-15 |
qwen3.5-plus-2026-02-15 |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
MU3 x 8 |
$150.72 |
$72,577.152 |
||
|
Qwen3-235B-A22B-Instruct |
qwen3-235b-a22b-instruct-2507 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
Qwen3-Next-80B-A3B-Instruct |
qwen3-next-80b-a3b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3-32B |
qwen3-32b |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU6 x 4 |
$13.752 |
$6,649.98 |
||
|
Qwen3-30B-A3B |
qwen3-30b-a3b |
MU9 x 2 |
$14.028 |
$6,766.048 |
|
Qwen3-30B-A3B-Instruct-2507 |
qwen3-30b-a3b-instruct-2507 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
Qwen3-8B |
qwen3-8b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU2 x 2 |
$17.328 |
$8,261.18 |
||
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen3-4B |
qwen3-4b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen3-1.7B |
qwen3-1.7b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen3-Max-2025-09-23 |
qwen3-max-2025-09-23 |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
MU3 x 8 |
$150.72 |
$72,577.152 |
||
|
Qwen2.5-72B |
qwen2.5-72b-instruct |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen2.5-32B |
qwen2.5-32b-instruct |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen2.5-14B |
qwen2.5-14b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen2.5-7B |
qwen2.5-7b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen2.5-3B-Instruct |
qwen2.5-3b-instruct |
MU5 x 1 |
$2.888 |
$1,394.329 |
|
Qwen-Flash-2025-07-28 |
qwen-flash-2025-07-28 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen-Plus-2025-07-28 |
qwen-plus-2025-07-28 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen-Plus-2025-12-01 |
qwen-plus-2025-12-01 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
GLM-5 |
glm-5 |
MU3 x 8 |
$150.72 |
$72,577.152 |
|
GLM-4.7 |
glm-4.7 |
MU6 x 16 |
$55.008 |
$26,599.92 |
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
DeepSeek-V4-Flash |
deepseek-v4-flash |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
DeepSeek-V3.2 |
deepseek-v3.2 |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
MiniMax-M2.5 |
MiniMax-M2.5 |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
Kimi-K2.5 |
kimi-k2.5 |
MU2 x 8 |
$69.312 |
$33,044.72 |
多模態
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
Qwen3-VL-235B-A22B-Instruct |
qwen3-vl-235b-a22b-instruct |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen3-VL-235B-A22B-Thinking |
qwen3-vl-235b-a22b-thinking |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen3-VL-32B-Instruct |
qwen3-vl-32b-instruct |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
Qwen3-VL-8B-Instruct |
qwen3-vl-8b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3-VL-Flash-2025-10-15 |
qwen3-vl-flash-2025-10-15 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen-VL-Max-2025-08-13 |
qwen-vl-max-2025-08-13 |
MU6 x 4 |
$13.752 |
$6,649.98 |
|
Qwen-VL-OCR-2025-11-20 |
qwen-vl-ocr-2025-11-20 |
MU6 x 4 |
$13.752 |
$6,649.98 |
|
模型名稱 |
模型代碼 |
模型單元規格 |
小時單價($) |
包月單價($) |
|
Qwen3.5-Omni-Flash |
qwen3.5-omni-flash |
MU8 x 1 |
$6.464 |
$3,080.477 |
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-Omni-Plus |
qwen3.5-omni-plus |
MU9 x 8 |
$56.112 |
$27,064.192 |
模型類型:
-
Instruct - 模型部署後以非思考模式進行推理。
-
Thinking - 模型部署後以思考模式進行推理。
按模型 Token 使用量
費用 = 模型輸入 Token 數 × 模型輸入單價 + 模型輸出 Token 數 × 模型輸出單價(最小計費單位:1 token)
-
僅當對下列基本模型完成 SFT 高效訓練並得到自訂模型後,才支援按模型 Token 使用量計費。
新加坡
|
基本模型 |
模型代碼 |
輸入 元/千Token |
輸出 元/千Token |
|
千問3-14B |
qwen3-14b |
$0.00035 |
非思考模式:$0.0014 思考模式:$0.0042 |
響應樣本
命令執行完成後,返回如下結果:
{
"request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38.68",
"gmt_modified": "2025-06-17T11:00:38.68",
"status": "PENDING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 0,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
響應參數
|
參數 |
類型 |
說明 |
|
request_id |
String |
本次請求的ID。 |
|
output |
Object |
本次部署任務的詳細資料。 |
|
deployed_model |
String |
新模型的唯一標識。可用於查詢部署詳情、修改部署限流、部署擴縮容、刪除部署等介面,也在發起模型調用請求時通過SDK參數傳入。 |
|
gmt_create |
String |
建立部署任務的時間。 |
|
gmt_modified |
String |
修改部署任務的時間。 |
|
status |
String |
部署任務的狀態。
|
|
model_name |
String |
部署任務使用的模型名稱。 |
|
base_model |
String |
部署任務使用的模型對應的基本模型ID。 |
|
base_capacity |
Number |
基本模型運行所需的最小資源單元數量。 |
|
capacity |
Number |
部署任務使用的資源單元數量。 |
|
ready_capacity |
Number |
已就緒並可立即處理請求的資源單元數量。受限於資源初始化速度或硬體狀態。 |
|
workspace_id |
String |
部署任務所屬的業務空間ID。 |
|
charge_type |
String |
部署任務的計費方法。
|
|
creator |
String |
該部署任務建立人UID。 |
|
modifier |
String |
對該部署任務進行最後一次操作的帳號UID。 |
|
plan |
String |
部署任務的計費模式。(部分模式不顯示該參數) |
|
僅模型单元部署方式響應 |
||
|
model_unit_spec |
String |
模型單元規格。 |
|
enable_thinking |
Boolean |
是否開啟思考模式,部分模型支援。 |
|
max_context_length |
Number |
最大上下文長度限制。 |
|
rpm_limit |
String |
Requests per minute,每分鐘請求數。 |
|
tpm_limit |
Number |
Token per minute,每分鐘 Token 使用量。 |
|
僅預置輸送量(ptu)部署方式響應 |
||
|
ptu_capacity |
Object |
當設定 範例: |
|
ptu_capacity.input_tpm |
Number |
所有模型支援,input token pre-minute,部署的模型每分鐘支援的最大輸入 Token 量。 |
|
ptu_capacity.output_tpm |
Number |
所有模型支援,output token pre-minute,部署的模型每分鐘支援的最大輸出 Token 量。 |
|
ptu_capacity.thinking_output_tpm |
Number |
部分模型支援,thinking output token pre-minute,部署的模型每分鐘支援的預置思考最大輸出 Token 量。 |
異常響應
響應樣本
{
"request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
"message": "Model: qwen-plus-20230703-cx7f not found!",
"code": "NotFound"
}
響應參數
|
欄位 |
類型 |
描述 |
|
request_id |
String |
本次請求的系統唯一碼。 |
|
code |
String |
錯誤碼。 |
|
message |
String |
錯誤資訊。 |
當請求出錯時,可能返回以下錯誤:
|
錯誤碼 |
錯誤資訊 |
錯誤原因 |
|
NotFound |
Model: xxx not found! |
|
|
Conflict |
Deployed model xxx already exists, please specify a suffix. |
建立部署任務時使用了已使用過的suffix。 |
|
InvalidParameter |
Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000! |
建立/更新部署任務時指定了無效的算力單元數量。 |