创建部署 - 大模型服务平台百炼

创建一个新的模型部署任务。

前提条件

您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容，掌握了模型部署的使用方法，并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
已配置百炼的 API-KEY，请参考获取API Key。

创建模型部署任务

地址

POST https://dashscope-intl.aliyuncs.com/api/v1/deployments

请求示例

按预置吞吐（PTU）计费

说明

执行以下部署命令后，即便您还没有调用模型，模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则，再执行部署命令。

按预置吞吐计费模式按预置吞吐的使用时长收费，适用于追求稳定吞吐保障和高并发低延迟、且流量可预估的场景。该模式下，吞吐/并发和生成速度均为平台预置，用户不可调。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_flash",
    "model_name": "qwen-flash-2025-07-28",
    "plan": "ptu",
    "ptu_capacity": {
        "input_tpm": 10000,
	"output_tpm": 1000
    }
}'

按模型单元的使用时长计费

说明

执行以下部署命令后，即便您还没有调用模型，模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则，再执行部署命令。
模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

选择按模型单元计费计费方式，计费模式为按模型单元的使用时长收费，适用场景为模型调优后的大规模推理业务，资源专属，性能和成本灵活可调；吞吐/并发和生成速度均为客户自定义。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_plus",
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型单元部署模式还支持以下更多设置：

配置内容	配置详情
配置模型推理模式	部分模型在以模型单元方式部署时，可配置推理模式、最长上下文等。 Instruct - 模型部署后以非思考模式进行推理。 Thinking - 模型部署后以思考模式进行推理。
最长上下文	部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。
服务限流	部分模型的模型单元部署模式支持该设置，可限制模型调用的 RPM、TPM。

如何在 API 设置上述内容，请参考：使用 API 创建模型部署任务。

按模型 Token 使用量计费

选择计费方式为按Token计费，计费模式为按Token用量收费，适用于高性价比诉求且对并发和延迟要求不高的场景。该模式价格优势最高，吞吐/并发和生成速度均由平台预置，用户不可调。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "name": "qwen3-8b-ft"
}'

capacity 参数设置无效，但必须填写。如需希望扩缩容，请前往百炼模型部署控制台填写表单申请。

请求参数

参数

类型

传参方式

必选

说明

model_name

String

body

是

待部署的模型名称，对应我的模型中的模型 ID。也可通过创建训练任务或创建导入任务接口的输出获取。

plan

String

body

是

部署方案，支持以下计费模式：

计费方式	plan 设置
按模型单元计费	`"plan": "mu"`
按算力单元计费	`"plan": "cu"`
预置吞吐量	`"plan": "ptu"`
LoRA 共享部署（按 Token 用量计费）	`"plan": "lora"`

调优后的模型支持的部署方式可以在我的模型中快速查询到。

说明

CosyVoice 系列调优模型当前仅支持"plan": "mu"。

name

String

body

是

模型的控制台显示名称

capacity

Integer

body

否

仅"plan": "mu"时必填，部署使用的资源单元数量，需为base_capacity的整数倍。不同deploy_spec的取值约束不同，例如MU2必须为 8 的倍数，MU5可填 1。样例："capacity": 1。

说明

CosyVoice 系列模型当前提供以下两种部署模板，对应的capacity取值约束：

单机部署：capacity须为 1 的整数倍，如 1、2、3、4、5。
单机部署-旗舰级复杂推理版：capacity须为 8 的整数倍，如 8、16、24、32。

billing_method

String

body

否

仅"plan": "mu"时必填，计费方式。当前支持"POST_PAY"（后付费）。样例："billing_method": "POST_PAY"。

deploy_spec

String

body

否

仅"plan": "mu"时，可填写该设置。

具体支持情况请参考：模型单元部署的功能支持情况。

当设置"plan": "mu"时，该参数必须填写。样例："deploy_spec": "MU1"。

说明

可通过获取可以部署的模型列表接口返回的 template_id 字段获取。

enable_thinking

Boolean

body

否

部分模型支持，可设置为true或false。

max_context_length

Number

body

否

部分模型支持。样例："max_context_length": 131072。

rpm_limit

Number

body

否

部分模型支持， requests per minute，每分钟请求数。

tpm_limit

Number

body

否

部分模型支持， token per minute，每分钟 Token 使用量。

ptu_capacity

Object

body

否

仅"plan": "ptu"时，可填写该设置。

具体支持情况请参考：PTU部署的功能支持情况。

如果不填写该参数，将默认按照 10,000 input_tpm 和 1,000 output_tpm 进行设置。

当设置"plan": "ptu"时，该参数才生效。

样例："ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }。

ptu_capacity.input_tpm

Number

body

否

所有模型支持，input token pre-minute，部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

body

否

所有模型支持，output token pre-minute，部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

body

否

部分模型支持，thinking output token pre-minute，部署的模型每分钟支持的预置思考最大输出 Token 量。

suffix

String

body

否

模型部署后，将生成新的模型名称，suffix 用于指定新模型名称的后缀，最大长度为8个字符且需全局唯一。每个模型在首次部署时，可以不指定后缀。如果需要对同一模型进行多次部署，则必须设置后缀以便于区分。

参考输出参数 deployed_model。

支持的模型

点击这里查看支持情况与计费

按使用时长计费（预置吞吐）

费用 = 使用时长 × (输入 TPM 单价 × 输入 TPM + 输出 TPM 单价 × 输出 TPM)

后付费按小时计算：使用时长单位为小时，单价取下表"持续 1 小时"列；预付费按天计算：使用时长单位为天，单价取下表"持续 1 天"列。

预付费订单支付后实时生效，有效期 N 天至第 N 天 23:59 结束。若在 22:00 后下单，到期日将自动顺延1天。
预付费订单到期后，将延后2小时停止服务，停止后资源保留14小时后释放。
预付费订单无法提前终止服务。
后付费时，如果账户欠费，部署的资源将保留并继续计费 24 小时，之后自动释放资源。

当模型输入超过最长输入 Token 或超出购买的 TPM 量时，相关调用将自动切换为当前模型的按量付费模式。此时，推理性能可能下降，限流将受业务空间中当前快照模型的公共流量的管控，费用按模型调用（按量付费）标准计收。

此时，调用 API 返回 Header 将包含：x-dashscope-ptu-overflow:true。
TPM 统计请前往：模型监控（北京）。

缩容场景（降配）的具体降费退费规则请参考：降配退款规则说明。

新加坡

千问

模型名称	模型代码	最长输入Token	后付费输入 Per 10K TPM/小时	后付费输出 Per 1K TPM/小时	预付费输入 Per 10K TPM/天	预付费输出 Per 1K TPM/天
千问3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	128,000	$1.2	$0.72	$14.4	$8.64

千问3.5-Plus-2026-04-20	qwen3.5-plus-2026-04-20	128,000	$0.96	$0.576	$11.52	$6.912

千问VL

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128,000

$0.48

$0.384

$5.76

$4.608

DeepSeek

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

DeepSeek-v3.2

deepseek-v3.2

64,000

$2.05

$0.616

$24.62

$7.387

华北2（北京）

千问

模型名称	模型代码	最长输入Token	后付费输入 Per 10K TPM/小时	后付费输出 Per 1K TPM/小时	预付费输入 Per 10K TPM/天	预付费输出 Per 1K TPM/天
千问3.7-Max-2026-05-20	qwen3.7-max-2026-05-20	128,000	$3.96	$1.188	$47.53	$14.258

千问3.6-Flash-2026-04-16	qwen3.6-flash-2026-04-16	128,000	$0.4	$0.238	$4.75	$2.852
千问3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	128,000	$0.67	$0.397	$7.93	$4.753

千问3.5-Plus-2026-04-20	qwen3.5-plus-2026-04-20	128,000	$0.26	$0.16	$3.17	$1.9

千问3-Max-2025-09-23	qwen3-max-2025-09-23	128,000	$1.11	$0.45	$13.32	$5.4

千问-Flash-2025-07-28	qwen-flash-2025-07-28	128,000	$0.06	$0.06	$0.72	$0.72
千问-Plus-2025-12-01	qwen-plus-2025-12-01	128,000	$0.28	非思考：$0.07 思考：$0.28	$3.36	非思考：$0.84 思考：$3.36

DeepSeek

模型名称	模型代码	最长输入Token	后付费输入 Per 10K TPM/小时	后付费输出 Per 1K TPM/小时	预付费输入 Per 10K TPM/天	预付费输出 Per 1K TPM/天
DeepSeek-v4-Pro	deepseek-v4-pro	64,000	$5.94	$1.188	$71.3	$14.26
DeepSeek-v3.2	deepseek-v3.2	64,000	$1.04	$0.16	$12.48	$1.92
DeepSeek-v3	deepseek-v3	64,000	$0.99	$0.396	$11.9	$4.75

千问VL

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128,000

$0.35

$4.2

按使用时长计费（模型单元）

费用 = 使用时长（小时）× 模型单元数量 × 模型单元单价

"模型单元单价"在后付费场景下取下表"小时单价"列；预付费按月计费时，公式改为 包月数 × 模型单元数量 × 月单价。

预付费购买的首月，如在首月内提前退订，日单价（≈ 月单价 / 30）将按 1.2 倍计费（不满一天按一天计费）

说明

模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

新加坡

文本生成

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
Qwen3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	MU1 x 8	$88	$41,832

Qwen3.5-39B-A17B	qwen3.5-397b-a17b	MU2 x 8	$112	$52,392
Qwen3.5-35B-A3B	qwen3.5-35b-a3b	MU2 x 8	$112	$52,392

Qwen3-32B	qwen3-32b	MU1 x 4	$44	$20,916
Qwen3-32B	qwen3-32b	MU2 x 8	$112	$52,392
Qwen3-14B	qwen3-14b	MU1 x 4	$44	$20,916

GLM-5.1	glm-5.1	MU2 x 8	$112	$52,392

DeepSeek-V4-Flash	deepseek-v4-flash	MU1 x 8	$88	$41,832

多模态

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
Qwen3-VL-32B-Instruct	qwen3-vl-32b-instruct	MU2 x 8	$112	$52,392
Qwen3-VL-8B-Instruct	qwen3-vl-8b-instruct	MU1 x 2	$22	$10,458

模型类型：

Instruct - 模型部署后以非思考模式进行推理。

华北2（北京）

文本生成

千问

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
Qwen3.6-35B-A3B	qwen3.6-35b-a3b	MU8 x 1	$6.464	$3,080.477
Qwen3.6-35B-A3B	qwen3.6-35b-a3b	MU9 x 1	$7.014	$3,383.024
Qwen3.6-27B	qwen3.6-27b	MU9 x 1	$7.014	$3,383.024
Qwen3.6-Flash-2026-04-16	qwen3.6-flash-2026-04-16	MU1 x 2	$14.852	$7,183.564
Qwen3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	MU1 x 8	$59.408	$28,734.256

Qwen3.5-397B-A17B	qwen3.5-397b-a17b	MU2 x 8	$69.312	$33,044.72
		MU3 x 8	$150.72	$72,577.152
		MU6 x 16	$55.008	$26,599.92
Qwen3.5-122B-A10B	qwen3.5-122b-a10b	MU1 x 4	$29.704	$14,367.128
		MU2 x 8	$69.312	$33,044.72
		MU6 x 16	$55.008	$26,599.92
		MU9 x 2	$14.028	$6,766.048
Qwen3.5-35B-A3B	qwen3.5-35b-a3b	MU1 x 2	$14.852	$7,183.564
		MU2 x 8	$69.312	$33,044.72
		MU8 x 1	$6.464	$3,080.477
		MU9 x 1	$7.014	$3,383.024
Qwen3.5-27B	qwen3.5-27b	MU1 x 2	$14.852	$7,183.564
Qwen3.5-27B	qwen3.5-27b	MU9 x 1	$7.014	$3,383.024
Qwen3.5-9B	qwen3.5-9b	MU1 x 2	$14.852	$7,183.564
		MU8 x 1	$6.464	$3,080.477
		MU9 x 1	$7.014	$3,383.024
Qwen3.5-Flash-2026-02-23	qwen3.5-flash-2026-02-23	MU1 x 2	$14.852	$7,183.564
Qwen3.5-Plus-2026-02-15	qwen3.5-plus-2026-02-15	MU1 x 8	$59.408	$28,734.256
Qwen3.5-Plus-2026-02-15	qwen3.5-plus-2026-02-15	MU3 x 8	$150.72	$72,577.152

Qwen3-235B-A22B-Instruct	qwen3-235b-a22b-instruct-2507	MU1 x 4	$29.704	$14,367.128
Qwen3-235B-A22B-Instruct	qwen3-235b-a22b-instruct-2507	MU2 x 8	$69.312	$33,044.72
Qwen3-Next-80B-A3B-Instruct	qwen3-next-80b-a3b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen3-32B	qwen3-32b	MU1 x 4	$29.704	$14,367.128
Qwen3-32B	qwen3-32b	MU6 x 4	$13.752	$6,649.98
Qwen3-30B-A3B	qwen3-30b-a3b	MU9 x 2	$14.028	$6,766.048
Qwen3-30B-A3B-Instruct-2507	qwen3-30b-a3b-instruct-2507	MU1 x 4	$29.704	$14,367.128
Qwen3-30B-A3B-Instruct-2507	qwen3-30b-a3b-instruct-2507	MU2 x 8	$69.312	$33,044.72
Qwen3-8B	qwen3-8b	MU1 x 2	$14.852	$7,183.564
		MU2 x 2	$17.328	$8,261.18
		MU5 x 1	$2.888	$1,394.329
Qwen3-4B	qwen3-4b	MU1 x 2	$14.852	$7,183.564
Qwen3-4B	qwen3-4b	MU5 x 1	$2.888	$1,394.329
Qwen3-1.7B	qwen3-1.7b	MU1 x 2	$14.852	$7,183.564
Qwen3-1.7B	qwen3-1.7b	MU5 x 1	$2.888	$1,394.329
Qwen3-Max-2025-09-23	qwen3-max-2025-09-23	MU2 x 8	$69.312	$33,044.72
Qwen3-Max-2025-09-23	qwen3-max-2025-09-23	MU3 x 8	$150.72	$72,577.152

Qwen2.5-72B	qwen2.5-72b-instruct	MU1 x 4	$29.704	$14,367.128
Qwen2.5-32B	qwen2.5-32b-instruct	MU1 x 4	$29.704	$14,367.128
Qwen2.5-14B	qwen2.5-14b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen2.5-7B	qwen2.5-7b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen2.5-7B	qwen2.5-7b-instruct	MU5 x 1	$2.888	$1,394.329
Qwen2.5-3B-Instruct	qwen2.5-3b-instruct	MU5 x 1	$2.888	$1,394.329

Qwen-Flash-2025-07-28	qwen-flash-2025-07-28	MU1 x 4	$29.704	$14,367.128
Qwen-Plus-2025-07-28	qwen-plus-2025-07-28	MU1 x 4	$29.704	$14,367.128
Qwen-Plus-2025-12-01	qwen-plus-2025-12-01	MU1 x 4	$29.704	$14,367.128

GLM

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
GLM-5	glm-5	MU3 x 8	$150.72	$72,577.152
GLM-4.7	glm-4.7	MU6 x 16	$55.008	$26,599.92

DeepSeek

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
DeepSeek-V4-Flash	deepseek-v4-flash	MU1 x 8	$59.408	$28,734.256
DeepSeek-V3.2	deepseek-v3.2	MU2 x 8	$69.312	$33,044.72

其他模型

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
MiniMax-M2.5	MiniMax-M2.5	MU1 x 8	$59.408	$28,734.256

Kimi-K2.5	kimi-k2.5	MU2 x 8	$69.312	$33,044.72

多模态

千问VL

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
Qwen3-VL-235B-A22B-Instruct	qwen3-vl-235b-a22b-instruct	MU1 x 4	$29.704	$14,367.128
Qwen3-VL-235B-A22B-Thinking	qwen3-vl-235b-a22b-thinking	MU1 x 4	$29.704	$14,367.128
Qwen3-VL-32B-Instruct	qwen3-vl-32b-instruct	MU2 x 8	$69.312	$33,044.72
Qwen3-VL-8B-Instruct	qwen3-vl-8b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen3-VL-Flash-2025-10-15	qwen3-vl-flash-2025-10-15	MU1 x 4	$29.704	$14,367.128
Qwen3-VL-Plus-2025-09-23	qwen3-vl-plus-2025-09-23	MU1 x 4	$29.704	$14,367.128

Qwen-VL-Max-2025-08-13	qwen-vl-max-2025-08-13	MU6 x 4	$13.752	$6,649.98
Qwen-VL-OCR-2025-11-20	qwen-vl-ocr-2025-11-20	MU6 x 4	$13.752	$6,649.98

千问Omni

模型名称	模型代码	模型单元规格	小时单价（$）	包月单价（$）
Qwen3.5-Omni-Flash	qwen3.5-omni-flash	MU8 x 1	$6.464	$3,080.477
Qwen3.5-Omni-Flash	qwen3.5-omni-flash	MU9 x 1	$7.014	$3,383.024
Qwen3.5-Omni-Plus	qwen3.5-omni-plus	MU9 x 8	$56.112	$27,064.192

模型类型：

Instruct - 模型部署后以非思考模式进行推理。
Thinking - 模型部署后以思考模式进行推理。

按模型 Token 使用量

费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价（最小计费单位：1 token）

仅当对下列基础模型完成 SFT 高效训练并得到自定义模型后，才支持按模型 Token 使用量计费。

新加坡

基础模型

模型代码

输入

元/千Token

输出

元/千Token

千问3-14B

qwen3-14b

$0.00035

非思考模式：$0.0014

思考模式：$0.0042

响应示例

命令执行完成后，返回如下结果：

{
  "request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38.68",
    "gmt_modified": "2025-06-17T11:00:38.68",
    "status": "PENDING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 0,
    "workspace_id": "llm-v71tlv3d***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

参数	类型	说明
request_id	String	本次请求的ID。
output	Object	本次部署任务的详细信息。
deployed_model	String	新模型的唯一标识。可用于查询部署详情、修改部署限流、部署扩缩容、删除部署等接口，也在发起模型调用请求时通过SDK参数传入。
gmt_create	String	创建部署任务的时间。
gmt_modified	String	修改部署任务的时间。
status	String	部署任务的状态。 PENDING：正在创建部署任务。 UPDATING：正在更新部署任务。 RUNNING：部署任务正在运行，此时已部署的模型可以正常处理请求。 STOPPED：部署任务已经停止，此时的部署任务不会被计费。 DELETING：正在删除部署任务。 FAILED：部署任务创建或更新失败。
model_name	String	部署任务使用的模型名称。
base_model	String	部署任务使用的模型对应的基础模型ID。
base_capacity	Number	基础模型运行所需的最小资源单元数量。
capacity	Number	部署任务使用的资源单元数量。
ready_capacity	Number	已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。
workspace_id	String	部署任务所属的业务空间ID。
charge_type	String	部署任务的扣费方法。 `post_paid`：后付费。
creator	String	该部署任务创建人UID。
modifier	String	对该部署任务进行最后一次操作的账号UID。
plan	String	部署任务的计费模式。（部分模式不显示该参数）
仅模型单元部署方式响应
model_unit_spec	String	模型单元规格。
enable_thinking	Boolean	是否开启思考模式，部分模型支持。
max_context_length	Number	最大上下文长度限制。
rpm_limit	String	Requests per minute，每分钟请求数。
tpm_limit	Number	Token per minute，每分钟 Token 使用量。
仅预置吞吐量（ptu）部署方式响应
ptu_capacity	Object	当设置`"plan": "ptu"`时，该参数才生效。样例：`"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }`。
ptu_capacity.input_tpm	Number	所有模型支持，input token pre-minute，部署的模型每分钟支持的最大输入 Token 量。
ptu_capacity.output_tpm	Number	所有模型支持，output token pre-minute，部署的模型每分钟支持的最大输出 Token 量。
ptu_capacity.thinking_output_tpm	Number	部分模型支持，thinking output token pre-minute，部署的模型每分钟支持的预置思考最大输出 Token 量。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段	类型	描述
request_id	String	本次请求的系统唯一码。
code	String	错误码。
message	String	错误信息。

当请求出错时，可能返回以下错误：

错误码	错误信息	错误原因
NotFound	Model: xxx not found!	创建部署任务时指定了不存在的模型。查询/更新/删除部署任务时指定了不存在的模型。
Conflict	Deployed model xxx already exists, please specify a suffix.	创建部署任务时使用了已使用过的suffix。
InvalidParameter	Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!	创建/更新部署任务时指定了无效的算力单元数量。

大模型服务平台百炼：创建部署

前提条件

创建模型部署任务

地址

请求示例

按预置吞吐（PTU）计费

按模型单元的使用时长计费

按模型 Token 使用量计费

请求参数

支持的模型

按使用时长计费（预置吞吐）

新加坡

千问

千问VL

DeepSeek

华北2（北京）

千问

DeepSeek

千问VL

更多模型

按使用时长计费（模型单元）

新加坡

文本生成

多模态

华北2（北京）

文本生成

多模态

按模型 Token 使用量

新加坡

响应示例

响应参数

异常响应

响应示例

响应参数