创建一个新的模型部署任务。
前提条件
-
您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容,掌握了模型部署的使用方法,并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
-
已配置百炼的 API-KEY, 请参考获取API Key。
创建模型部署任务
地址
POST https://dashscope-intl.aliyuncs.com/api/v1/deployments
请求示例
按预置吞吐(PTU)计费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。
按预置吞吐计费模式按预置吞吐的使用时长收费,适用于追求稳定吞吐保障和高并发低延迟、且流量可预估的场景。该模式下,吞吐/并发和生成速度均为平台预置,用户不可调。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_flash",
"model_name": "qwen-flash-2025-07-28",
"plan": "ptu",
"ptu_capacity": {
"input_tpm": 10000,
"output_tpm": 1000
}
}'按模型单元的使用时长计费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。
模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。
选择按模型单元计费计费方式,计费模式为按模型单元的使用时长收费,适用场景为模型调优后的大规模推理业务,资源专属,性能和成本灵活可调;吞吐/并发和生成速度均为客户自定义。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_plus",
"model_name": "qwen-plus-2025-12-01",
"plan": "mu",
"deploy_spec": "MU1",
"enable_thinking": true,
"capacity": 4,
"max_context_length": 10000,
"rpm_limit": 500,
"tpm_limit": 1000
}'模型单元部署模式还支持以下更多设置:
|
配置内容 |
配置详情 |
|
配置模型推理模式 |
部分模型在以模型单元方式部署时,可配置推理模式、最长上下文等。
|
|
最长上下文 |
部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。 |
|
服务限流 |
部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。 |
如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务。
按模型 Token 使用量计费
选择计费方式为按Token计费,计费模式为按Token用量收费,适用于高性价比诉求且对并发和延迟要求不高的场景。该模式价格优势最高,吞吐/并发和生成速度均由平台预置,用户不可调。
curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen3-8b-ft-202511132025-0260",
"plan": "lora",
"capacity": 1,
"name": "qwen3-8b-ft"
}'capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。
请求参数
|
参数 |
类型 |
传参方式 |
必选 |
说明 |
|||||||||||
|
model_name |
String |
body |
是 |
||||||||||||
|
plan |
String |
body |
是 |
部署方案,支持以下计费模式:
调优后的模型支持的部署方式可以在我的模型中快速查询到。 说明
CosyVoice 系列调优模型当前仅支持 |
|||||||||||
|
name |
String |
body |
是 |
模型的控制台显示名称 |
|||||||||||
|
capacity |
Integer |
body |
否 |
仅 说明
CosyVoice 系列模型当前提供以下两种部署模板,对应的
|
|||||||||||
|
billing_method |
String |
body |
否 |
仅 |
|||||||||||
|
deploy_spec |
String |
body |
否 |
仅 具体支持情况请参考:模型单元部署的功能支持情况。 |
当设置 说明
可通过获取可以部署的模型列表接口返回的 |
||||||||||
|
enable_thinking |
Boolean |
body |
否 |
部分模型支持,可设置为 |
|||||||||||
|
max_context_length |
Number |
body |
否 |
部分模型支持。样例: |
|||||||||||
|
rpm_limit |
Number |
body |
否 |
部分模型支持, requests per minute,每分钟请求数。 |
|||||||||||
|
tpm_limit |
Number |
body |
否 |
部分模型支持, token per minute,每分钟 Token 使用量。 |
|||||||||||
|
ptu_capacity |
Object |
body |
否 |
仅 具体支持情况请参考:PTU部署的功能支持情况。 如果不填写该参数,将默认按照 |
当设置 样例: |
||||||||||
|
ptu_capacity.input_tpm |
Number |
body |
否 |
所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 |
|||||||||||
|
ptu_capacity.output_tpm |
Number |
body |
否 |
所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 |
|||||||||||
|
ptu_capacity.thinking_output_tpm |
Number |
body |
否 |
部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 |
|||||||||||
|
suffix |
String |
body |
否 |
模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。 参考输出参数 deployed_model。 |
|||||||||||
支持的模型
点击这里查看支持情况与计费
按使用时长计费(预置吞吐)
费用 = 使用时长 × (输入 TPM 单价 × 输入 TPM + 输出 TPM 单价 × 输出 TPM)
后付费按小时计算:使用时长单位为小时,单价取下表"持续 1 小时"列;预付费按天计算:使用时长单位为天,单价取下表"持续 1 天"列。
-
预付费订单支付后实时生效,有效期 N 天至第 N 天 23:59 结束。若在 22:00 后下单,到期日将自动顺延1天。
-
预付费订单到期后,将延后2小时停止服务,停止后资源保留14小时后释放。
-
预付费订单无法提前终止服务。
-
后付费时,如果账户欠费,部署的资源将保留并继续计费 24 小时,之后自动释放资源。
当模型输入超过最长输入 Token 或 超出购买的 TPM 量时,相关调用将自动切换为当前模型的按量付费模式。此时,推理性能可能下降,限流将受业务空间中当前快照模型的公共流量的管控,费用按模型调用(按量付费)标准计收。
-
此时,调用 API 返回 Header 将包含:
x-dashscope-ptu-overflow:true。 -
TPM 统计请前往:模型监控(北京)。
缩容场景(降配)的具体降费退费规则请参考:降配退款规则说明。
新加坡
千问
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
千问3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
128,000 |
$1.2 |
$0.72 |
$14.4 |
$8.64 |
|
千问3.5-Plus-2026-04-20 |
qwen3.5-plus-2026-04-20 |
128,000 |
$0.96 |
$0.576 |
$11.52 |
$6.912 |
千问VL
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
千问3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
128,000 |
$0.48 |
$0.384 |
$5.76 |
$4.608 |
DeepSeek
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
DeepSeek-v3.2 |
deepseek-v3.2 |
64,000 |
$2.05 |
$0.616 |
$24.62 |
$7.387 |
华北2(北京)
千问
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
千问3.7-Max-2026-05-20 |
qwen3.7-max-2026-05-20 |
128,000 |
$3.96 |
$1.188 |
$47.53 |
$14.258 |
|
千问3.6-Flash-2026-04-16 |
qwen3.6-flash-2026-04-16 |
128,000 |
$0.4 |
$0.238 |
$4.75 |
$2.852 |
|
千问3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
128,000 |
$0.67 |
$0.397 |
$7.93 |
$4.753 |
|
千问3.5-Plus-2026-04-20 |
qwen3.5-plus-2026-04-20 |
128,000 |
$0.26 |
$0.16 |
$3.17 |
$1.9 |
|
千问3-Max-2025-09-23 |
qwen3-max-2025-09-23 |
128,000 |
$1.11 |
$0.45 |
$13.32 |
$5.4 |
|
千问-Flash-2025-07-28 |
qwen-flash-2025-07-28 |
128,000 |
$0.06 |
$0.06 |
$0.72 |
$0.72 |
|
千问-Plus-2025-12-01 |
qwen-plus-2025-12-01 |
128,000 |
$0.28 |
非思考:$0.07 思考:$0.28 |
$3.36 |
非思考:$0.84 思考:$3.36 |
DeepSeek
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
DeepSeek-v4-Pro |
deepseek-v4-pro |
64,000 |
$5.94 |
$1.188 |
$71.3 |
$14.26 |
|
DeepSeek-v3.2 |
deepseek-v3.2 |
64,000 |
$1.04 |
$0.16 |
$12.48 |
$1.92 |
|
DeepSeek-v3 |
deepseek-v3 |
64,000 |
$0.99 |
$0.396 |
$11.9 |
$4.75 |
千问VL
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
千问3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
128,000 |
$0.35 |
$0.35 |
$4.2 |
$4.2 |
更多模型
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
GLM-5.1 |
glm-5.1 |
64,000 |
$2.97 |
$1.19 |
$35.65 |
$14.26 |
按使用时长计费(模型单元)
费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价
"模型单元单价"在后付费场景下取下表"小时单价"列;预付费按月计费时,公式改为 包月数 × 模型单元数量 × 月单价。
-
预付费购买的首月,如在首月内提前退订,日单价(≈ 月单价 / 30)将按 1.2 倍计费(不满一天按一天计费)
模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。
新加坡
文本生成
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
Qwen3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
MU1 x 8 |
$88 |
$41,832 |
|
Qwen3.5-39B-A17B |
qwen3.5-397b-a17b |
MU2 x 8 |
$112 |
$52,392 |
|
Qwen3.5-35B-A3B |
qwen3.5-35b-a3b |
MU2 x 8 |
$112 |
$52,392 |
|
Qwen3-32B |
qwen3-32b |
MU1 x 4 |
$44 |
$20,916 |
|
MU2 x 8 |
$112 |
$52,392 |
||
|
Qwen3-14B |
qwen3-14b |
MU1 x 4 |
$44 |
$20,916 |
|
GLM-5.1 |
glm-5.1 |
MU2 x 8 |
$112 |
$52,392 |
|
DeepSeek-V4-Flash |
deepseek-v4-flash |
MU1 x 8 |
$88 |
$41,832 |
多模态
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
Qwen3-VL-32B-Instruct |
qwen3-vl-32b-instruct |
MU2 x 8 |
$112 |
$52,392 |
|
Qwen3-VL-8B-Instruct |
qwen3-vl-8b-instruct |
MU1 x 2 |
$22 |
$10,458 |
模型类型:
-
Instruct - 模型部署后以非思考模式进行推理。
华北2(北京)
文本生成
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
Qwen3.6-35B-A3B |
qwen3.6-35b-a3b |
MU8 x 1 |
$6.464 |
$3,080.477 |
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.6-27B |
qwen3.6-27b |
MU9 x 1 |
$7.014 |
$3,383.024 |
|
Qwen3.6-Flash-2026-04-16 |
qwen3.6-flash-2026-04-16 |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
Qwen3.5-397B-A17B |
qwen3.5-397b-a17b |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
MU3 x 8 |
$150.72 |
$72,577.152 |
||
|
MU6 x 16 |
$55.008 |
$26,599.92 |
||
|
Qwen3.5-122B-A10B |
qwen3.5-122b-a10b |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
MU6 x 16 |
$55.008 |
$26,599.92 |
||
|
MU9 x 2 |
$14.028 |
$6,766.048 |
||
|
Qwen3.5-35B-A3B |
qwen3.5-35b-a3b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
MU8 x 1 |
$6.464 |
$3,080.477 |
||
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-27B |
qwen3.5-27b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-9B |
qwen3.5-9b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU8 x 1 |
$6.464 |
$3,080.477 |
||
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-Flash-2026-02-23 |
qwen3.5-flash-2026-02-23 |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3.5-Plus-2026-02-15 |
qwen3.5-plus-2026-02-15 |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
MU3 x 8 |
$150.72 |
$72,577.152 |
||
|
Qwen3-235B-A22B-Instruct |
qwen3-235b-a22b-instruct-2507 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
Qwen3-Next-80B-A3B-Instruct |
qwen3-next-80b-a3b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3-32B |
qwen3-32b |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU6 x 4 |
$13.752 |
$6,649.98 |
||
|
Qwen3-30B-A3B |
qwen3-30b-a3b |
MU9 x 2 |
$14.028 |
$6,766.048 |
|
Qwen3-30B-A3B-Instruct-2507 |
qwen3-30b-a3b-instruct-2507 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
MU2 x 8 |
$69.312 |
$33,044.72 |
||
|
Qwen3-8B |
qwen3-8b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU2 x 2 |
$17.328 |
$8,261.18 |
||
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen3-4B |
qwen3-4b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen3-1.7B |
qwen3-1.7b |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen3-Max-2025-09-23 |
qwen3-max-2025-09-23 |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
MU3 x 8 |
$150.72 |
$72,577.152 |
||
|
Qwen2.5-72B |
qwen2.5-72b-instruct |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen2.5-32B |
qwen2.5-32b-instruct |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen2.5-14B |
qwen2.5-14b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen2.5-7B |
qwen2.5-7b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
MU5 x 1 |
$2.888 |
$1,394.329 |
||
|
Qwen2.5-3B-Instruct |
qwen2.5-3b-instruct |
MU5 x 1 |
$2.888 |
$1,394.329 |
|
Qwen-Flash-2025-07-28 |
qwen-flash-2025-07-28 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen-Plus-2025-07-28 |
qwen-plus-2025-07-28 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen-Plus-2025-12-01 |
qwen-plus-2025-12-01 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
GLM-5 |
glm-5 |
MU3 x 8 |
$150.72 |
$72,577.152 |
|
GLM-4.7 |
glm-4.7 |
MU6 x 16 |
$55.008 |
$26,599.92 |
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
DeepSeek-V4-Flash |
deepseek-v4-flash |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
DeepSeek-V3.2 |
deepseek-v3.2 |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
MiniMax-M2.5 |
MiniMax-M2.5 |
MU1 x 8 |
$59.408 |
$28,734.256 |
|
Kimi-K2.5 |
kimi-k2.5 |
MU2 x 8 |
$69.312 |
$33,044.72 |
多模态
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
Qwen3-VL-235B-A22B-Instruct |
qwen3-vl-235b-a22b-instruct |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen3-VL-235B-A22B-Thinking |
qwen3-vl-235b-a22b-thinking |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen3-VL-32B-Instruct |
qwen3-vl-32b-instruct |
MU2 x 8 |
$69.312 |
$33,044.72 |
|
Qwen3-VL-8B-Instruct |
qwen3-vl-8b-instruct |
MU1 x 2 |
$14.852 |
$7,183.564 |
|
Qwen3-VL-Flash-2025-10-15 |
qwen3-vl-flash-2025-10-15 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
MU1 x 4 |
$29.704 |
$14,367.128 |
|
Qwen-VL-Max-2025-08-13 |
qwen-vl-max-2025-08-13 |
MU6 x 4 |
$13.752 |
$6,649.98 |
|
Qwen-VL-OCR-2025-11-20 |
qwen-vl-ocr-2025-11-20 |
MU6 x 4 |
$13.752 |
$6,649.98 |
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价($) |
包月单价($) |
|
Qwen3.5-Omni-Flash |
qwen3.5-omni-flash |
MU8 x 1 |
$6.464 |
$3,080.477 |
|
MU9 x 1 |
$7.014 |
$3,383.024 |
||
|
Qwen3.5-Omni-Plus |
qwen3.5-omni-plus |
MU9 x 8 |
$56.112 |
$27,064.192 |
模型类型:
-
Instruct - 模型部署后以非思考模式进行推理。
-
Thinking - 模型部署后以思考模式进行推理。
按模型 Token 使用量
费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token)
-
仅当对下列基础模型完成 SFT 高效训练并得到自定义模型后,才支持按模型 Token 使用量计费。
新加坡
|
基础模型 |
模型代码 |
输入 元/千Token |
输出 元/千Token |
|
千问3-14B |
qwen3-14b |
$0.00035 |
非思考模式:$0.0014 思考模式:$0.0042 |
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38.68",
"gmt_modified": "2025-06-17T11:00:38.68",
"status": "PENDING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 0,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
响应参数
|
参数 |
类型 |
说明 |
|
request_id |
String |
本次请求的ID。 |
|
output |
Object |
本次部署任务的详细信息。 |
|
deployed_model |
String |
新模型的唯一标识。可用于查询部署详情、修改部署限流、部署扩缩容、删除部署等接口,也在发起模型调用请求时通过SDK参数传入。 |
|
gmt_create |
String |
创建部署任务的时间。 |
|
gmt_modified |
String |
修改部署任务的时间。 |
|
status |
String |
部署任务的状态。
|
|
model_name |
String |
部署任务使用的模型名称。 |
|
base_model |
String |
部署任务使用的模型对应的基础模型ID。 |
|
base_capacity |
Number |
基础模型运行所需的最小资源单元数量。 |
|
capacity |
Number |
部署任务使用的资源单元数量。 |
|
ready_capacity |
Number |
已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。 |
|
workspace_id |
String |
部署任务所属的业务空间ID。 |
|
charge_type |
String |
部署任务的扣费方法。
|
|
creator |
String |
该部署任务创建人UID。 |
|
modifier |
String |
对该部署任务进行最后一次操作的账号UID。 |
|
plan |
String |
部署任务的计费模式。(部分模式不显示该参数) |
|
仅模型单元部署方式响应 |
||
|
model_unit_spec |
String |
模型单元规格。 |
|
enable_thinking |
Boolean |
是否开启思考模式,部分模型支持。 |
|
max_context_length |
Number |
最大上下文长度限制。 |
|
rpm_limit |
String |
Requests per minute,每分钟请求数。 |
|
tpm_limit |
Number |
Token per minute,每分钟 Token 使用量。 |
|
仅预置吞吐量(ptu)部署方式响应 |
||
|
ptu_capacity |
Object |
当设置 样例: |
|
ptu_capacity.input_tpm |
Number |
所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 |
|
ptu_capacity.output_tpm |
Number |
所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 |
|
ptu_capacity.thinking_output_tpm |
Number |
部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 |
异常响应
响应示例
{
"request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
"message": "Model: qwen-plus-20230703-cx7f not found!",
"code": "NotFound"
}
响应参数
|
字段 |
类型 |
描述 |
|
request_id |
String |
本次请求的系统唯一码。 |
|
code |
String |
错误码。 |
|
message |
String |
错误信息。 |
当请求出错时,可能返回以下错误:
|
错误码 |
错误信息 |
错误原因 |
|
NotFound |
Model: xxx not found! |
|
|
Conflict |
Deployed model xxx already exists, please specify a suffix. |
创建部署任务时使用了已使用过的suffix。 |
|
InvalidParameter |
Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000! |
创建/更新部署任务时指定了无效的算力单元数量。 |