全部产品
Search
文档中心

大模型服务平台百炼:创建部署

更新时间:Jun 05, 2026

创建一个新的模型部署任务。

前提条件

创建模型部署任务

地址

POST https://dashscope-intl.aliyuncs.com/api/v1/deployments

请求示例

按预置吞吐(PTU)计费

说明

执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

按预置吞吐计费模式按预置吞吐的使用时长收费,适用于追求稳定吞吐保障和高并发低延迟、且流量可预估的场景。该模式下,吞吐/并发生成速度均为平台预置,用户不可调。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_flash",
    "model_name": "qwen-flash-2025-07-28",
    "plan": "ptu",
    "ptu_capacity": {
        "input_tpm": 10000,
	"output_tpm": 1000
    }
}'

按模型单元的使用时长计费

说明
  • 执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

  • 模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

选择按模型单元计费计费方式,计费模式为按模型单元的使用时长收费,适用场景为模型调优后的大规模推理业务,资源专属,性能和成本灵活可调;吞吐/并发和生成速度均为客户自定义。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_plus",
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型单元部署模式还支持以下更多设置:

配置内容

配置详情

配置模型推理模式

部分模型在以模型单元方式部署时,可配置推理模式、最长上下文等。

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

最长上下文

部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。

服务限流

部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。

如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务

按模型 Token 使用量计费

选择计费方式为按Token计费,计费模式为按Token用量收费,适用于高性价比诉求且对并发和延迟要求不高的场景。该模式价格优势最高,吞吐/并发和生成速度均由平台预置,用户不可调。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "name": "qwen3-8b-ft"
}'
capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。

请求参数

参数

类型

传参方式

必选

说明

model_name

String

body

待部署的模型名称,对应我的模型中的模型 ID。也可通过创建训练任务创建导入任务接口的输出获取。

plan

String

body

部署方案,支持以下计费模式:

计费方式

plan 设置

按模型单元计费

"plan": "mu"

按算力单元计费

"plan": "cu"

预置吞吐量

"plan": "ptu"

LoRA 共享部署(按 Token 用量计费)

"plan": "lora"

调优后的模型支持的部署方式可以在我的模型中快速查询到。

说明

CosyVoice 系列调优模型当前仅支持"plan": "mu"

name

String

body

模型的控制台显示名称

capacity

Integer

body

"plan": "mu"时必填,部署使用的资源单元数量,需为base_capacity的整数倍。不同deploy_spec的取值约束不同,例如MU2必须为 8 的倍数,MU5可填 1。样例:"capacity": 1

说明

CosyVoice 系列模型当前提供以下两种部署模板,对应的capacity取值约束:

  • 单机部署:capacity须为 1 的整数倍,如 1、2、3、4、5。

  • 单机部署-旗舰级复杂推理版:capacity须为 8 的整数倍,如 8、16、24、32。

billing_method

String

body

"plan": "mu"时必填,计费方式。当前支持"POST_PAY"(后付费)。样例:"billing_method": "POST_PAY"

deploy_spec

String

body

"plan": "mu"时,可填写该设置。

具体支持情况请参考:模型单元部署的功能支持情况

当设置"plan": "mu"时,该参数必须填写。样例:"deploy_spec": "MU1"

说明

可通过获取可以部署的模型列表接口返回的 template_id 字段获取。

enable_thinking

Boolean

body

部分模型支持,可设置为truefalse

max_context_length

Number

body

部分模型支持。样例:"max_context_length": 131072

rpm_limit

Number

body

部分模型支持, requests per minute,每分钟请求数。

tpm_limit

Number

body

部分模型支持, token per minute,每分钟 Token 使用量。

ptu_capacity

Object

body

"plan": "ptu"时,可填写该设置。

具体支持情况请参考:PTU部署的功能支持情况

如果不填写该参数,将默认按照 10,000 input_tpm1,000 output_tpm 进行设置。

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

body

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

body

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

body

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

suffix

String

body

模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。

参考输出参数 deployed_model

支持的模型

点击这里查看支持情况与计费

按使用时长计费(预置吞吐)

费用 = 使用时长 × (输入 TPM 单价 × 输入 TPM + 输出 TPM 单价 × 输出 TPM)

后付费按小时计算:使用时长单位为小时,单价取下表"持续 1 小时"列;预付费按天计算:使用时长单位为天,单价取下表"持续 1 天"列。

  • 预付费订单支付后实时生效,有效期 N 天至第 N 天 23:59 结束。若在 22:00 后下单,到期日将自动顺延1天。

  • 预付费订单到期后,将延后2小时停止服务,停止后资源保留14小时后释放。

  • 预付费订单无法提前终止服务。

  • 后付费时,如果账户欠费,部署的资源将保留并继续计费 24 小时,之后自动释放资源。

当模型输入超过最长输入 Token 或 超出购买的 TPM 量时,相关调用将自动切换为当前模型的按量付费模式。此时,推理性能可能下降,限流将受业务空间中当前快照模型的公共流量的管控,费用按模型调用(按量付费)标准计收。

  • 此时,调用 API 返回 Header 将包含:x-dashscope-ptu-overflow:true

  • TPM 统计请前往:模型监控(北京)

缩容场景(降配)的具体降费退费规则请参考:降配退款规则说明

新加坡
千问

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3.6-Plus-2026-04-02

qwen3.6-plus-2026-04-02

128,000

$1.2

$0.72

$14.4

$8.64

千问3.5-Plus-2026-04-20

qwen3.5-plus-2026-04-20

128,000

$0.96

$0.576

$11.52

$6.912

千问VL

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128,000

$0.48

$0.384

$5.76

$4.608

DeepSeek

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

DeepSeek-v3.2

deepseek-v3.2

64,000

$2.05

$0.616

$24.62

$7.387

华北2(北京)
千问

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3.7-Max-2026-05-20

qwen3.7-max-2026-05-20

128,000

$3.96

$1.188

$47.53

$14.258

千问3.6-Flash-2026-04-16

qwen3.6-flash-2026-04-16

128,000

$0.4

$0.238

$4.75

$2.852

千问3.6-Plus-2026-04-02

qwen3.6-plus-2026-04-02

128,000

$0.67

$0.397

$7.93

$4.753

千问3.5-Plus-2026-04-20

qwen3.5-plus-2026-04-20

128,000

$0.26

$0.16

$3.17

$1.9

千问3-Max-2025-09-23

qwen3-max-2025-09-23

128,000

$1.11

$0.45

$13.32

$5.4

千问-Flash-2025-07-28

qwen-flash-2025-07-28

128,000

$0.06

$0.06

$0.72

$0.72

千问-Plus-2025-12-01

qwen-plus-2025-12-01

128,000

$0.28

非思考:$0.07

思考:$0.28

$3.36

非思考:$0.84

思考:$3.36

DeepSeek

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

DeepSeek-v4-Pro

deepseek-v4-pro

64,000

$5.94

$1.188

$71.3

$14.26

DeepSeek-v3.2

deepseek-v3.2

64,000

$1.04

$0.16

$12.48

$1.92

DeepSeek-v3

deepseek-v3

64,000

$0.99

$0.396

$11.9

$4.75

千问VL

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128,000

$0.35

$0.35

$4.2

$4.2

更多模型

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

GLM-5.1

glm-5.1

64,000

$2.97

$1.19

$35.65

$14.26

按使用时长计费(模型单元)

费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价

"模型单元单价"在后付费场景下取下表"小时单价"列;预付费按月计费时,公式改为 包月数 × 模型单元数量 × 月单价

  • 预付费购买的首月,如在首月内提前退订,日单价(≈ 月单价 / 30)将按 1.2 倍计费(不满一天按一天计费)

说明

模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

新加坡
文本生成

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

Qwen3.6-Plus-2026-04-02

qwen3.6-plus-2026-04-02

MU1 x 8

$88

$41,832

Qwen3.5-39B-A17B

qwen3.5-397b-a17b

MU2 x 8

$112

$52,392

Qwen3.5-35B-A3B

qwen3.5-35b-a3b

MU2 x 8

$112

$52,392

Qwen3-32B

qwen3-32b

MU1 x 4

$44

$20,916

MU2 x 8

$112

$52,392

Qwen3-14B

qwen3-14b

MU1 x 4

$44

$20,916

GLM-5.1

glm-5.1

MU2 x 8

$112

$52,392

DeepSeek-V4-Flash

deepseek-v4-flash

MU1 x 8

$88

$41,832

多模态

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

Qwen3-VL-32B-Instruct

qwen3-vl-32b-instruct

MU2 x 8

$112

$52,392

Qwen3-VL-8B-Instruct

qwen3-vl-8b-instruct

MU1 x 2

$22

$10,458

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

华北2(北京)
文本生成
千问

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

Qwen3.6-35B-A3B

qwen3.6-35b-a3b

MU8 x 1

$6.464

$3,080.477

MU9 x 1

$7.014

$3,383.024

Qwen3.6-27B

qwen3.6-27b

MU9 x 1

$7.014

$3,383.024

Qwen3.6-Flash-2026-04-16

qwen3.6-flash-2026-04-16

MU1 x 2

$14.852

$7,183.564

Qwen3.6-Plus-2026-04-02

qwen3.6-plus-2026-04-02

MU1 x 8

$59.408

$28,734.256

Qwen3.5-397B-A17B

qwen3.5-397b-a17b

MU2 x 8

$69.312

$33,044.72

MU3 x 8

$150.72

$72,577.152

MU6 x 16

$55.008

$26,599.92

Qwen3.5-122B-A10B

qwen3.5-122b-a10b

MU1 x 4

$29.704

$14,367.128

MU2 x 8

$69.312

$33,044.72

MU6 x 16

$55.008

$26,599.92

MU9 x 2

$14.028

$6,766.048

Qwen3.5-35B-A3B

qwen3.5-35b-a3b

MU1 x 2

$14.852

$7,183.564

MU2 x 8

$69.312

$33,044.72

MU8 x 1

$6.464

$3,080.477

MU9 x 1

$7.014

$3,383.024

Qwen3.5-27B

qwen3.5-27b

MU1 x 2

$14.852

$7,183.564

MU9 x 1

$7.014

$3,383.024

Qwen3.5-9B

qwen3.5-9b

MU1 x 2

$14.852

$7,183.564

MU8 x 1

$6.464

$3,080.477

MU9 x 1

$7.014

$3,383.024

Qwen3.5-Flash-2026-02-23

qwen3.5-flash-2026-02-23

MU1 x 2

$14.852

$7,183.564

Qwen3.5-Plus-2026-02-15

qwen3.5-plus-2026-02-15

MU1 x 8

$59.408

$28,734.256

MU3 x 8

$150.72

$72,577.152

Qwen3-235B-A22B-Instruct

qwen3-235b-a22b-instruct-2507

MU1 x 4

$29.704

$14,367.128

MU2 x 8

$69.312

$33,044.72

Qwen3-Next-80B-A3B-Instruct

qwen3-next-80b-a3b-instruct

MU1 x 2

$14.852

$7,183.564

Qwen3-32B

qwen3-32b

MU1 x 4

$29.704

$14,367.128

MU6 x 4

$13.752

$6,649.98

Qwen3-30B-A3B

qwen3-30b-a3b

MU9 x 2

$14.028

$6,766.048

Qwen3-30B-A3B-Instruct-2507

qwen3-30b-a3b-instruct-2507

MU1 x 4

$29.704

$14,367.128

MU2 x 8

$69.312

$33,044.72

Qwen3-8B

qwen3-8b

MU1 x 2

$14.852

$7,183.564

MU2 x 2

$17.328

$8,261.18

MU5 x 1

$2.888

$1,394.329

Qwen3-4B

qwen3-4b

MU1 x 2

$14.852

$7,183.564

MU5 x 1

$2.888

$1,394.329

Qwen3-1.7B

qwen3-1.7b

MU1 x 2

$14.852

$7,183.564

MU5 x 1

$2.888

$1,394.329

Qwen3-Max-2025-09-23

qwen3-max-2025-09-23

MU2 x 8

$69.312

$33,044.72

MU3 x 8

$150.72

$72,577.152

Qwen2.5-72B

qwen2.5-72b-instruct

MU1 x 4

$29.704

$14,367.128

Qwen2.5-32B

qwen2.5-32b-instruct

MU1 x 4

$29.704

$14,367.128

Qwen2.5-14B

qwen2.5-14b-instruct

MU1 x 2

$14.852

$7,183.564

Qwen2.5-7B

qwen2.5-7b-instruct

MU1 x 2

$14.852

$7,183.564

MU5 x 1

$2.888

$1,394.329

Qwen2.5-3B-Instruct

qwen2.5-3b-instruct

MU5 x 1

$2.888

$1,394.329

Qwen-Flash-2025-07-28

qwen-flash-2025-07-28

MU1 x 4

$29.704

$14,367.128

Qwen-Plus-2025-07-28

qwen-plus-2025-07-28

MU1 x 4

$29.704

$14,367.128

Qwen-Plus-2025-12-01

qwen-plus-2025-12-01

MU1 x 4

$29.704

$14,367.128

GLM

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

GLM-5

glm-5

MU3 x 8

$150.72

$72,577.152

GLM-4.7

glm-4.7

MU6 x 16

$55.008

$26,599.92

DeepSeek

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

DeepSeek-V4-Flash

deepseek-v4-flash

MU1 x 8

$59.408

$28,734.256

DeepSeek-V3.2

deepseek-v3.2

MU2 x 8

$69.312

$33,044.72

其他模型

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

MiniMax-M2.5

MiniMax-M2.5

MU1 x 8

$59.408

$28,734.256

Kimi-K2.5

kimi-k2.5

MU2 x 8

$69.312

$33,044.72

多模态
千问VL

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

Qwen3-VL-235B-A22B-Instruct

qwen3-vl-235b-a22b-instruct

MU1 x 4

$29.704

$14,367.128

Qwen3-VL-235B-A22B-Thinking

qwen3-vl-235b-a22b-thinking

MU1 x 4

$29.704

$14,367.128

Qwen3-VL-32B-Instruct

qwen3-vl-32b-instruct

MU2 x 8

$69.312

$33,044.72

Qwen3-VL-8B-Instruct

qwen3-vl-8b-instruct

MU1 x 2

$14.852

$7,183.564

Qwen3-VL-Flash-2025-10-15

qwen3-vl-flash-2025-10-15

MU1 x 4

$29.704

$14,367.128

Qwen3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

MU1 x 4

$29.704

$14,367.128

Qwen-VL-Max-2025-08-13

qwen-vl-max-2025-08-13

MU6 x 4

$13.752

$6,649.98

Qwen-VL-OCR-2025-11-20

qwen-vl-ocr-2025-11-20

MU6 x 4

$13.752

$6,649.98

千问Omni

模型名称

模型代码

模型单元规格

小时单价($)

包月单价($)

Qwen3.5-Omni-Flash

qwen3.5-omni-flash

MU8 x 1

$6.464

$3,080.477

MU9 x 1

$7.014

$3,383.024

Qwen3.5-Omni-Plus

qwen3.5-omni-plus

MU9 x 8

$56.112

$27,064.192

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

按模型 Token 使用量

费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token)

  • 仅当对下列基础模型完成 SFT 高效训练并得到自定义模型后,才支持按模型 Token 使用量计费。

新加坡

基础模型

模型代码

输入

元/千Token

输出

元/千Token

千问3-14B

qwen3-14b

$0.00035

非思考模式:$0.0014

思考模式:$0.0042

响应示例

命令执行完成后,返回如下结果:

{
  "request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38.68",
    "gmt_modified": "2025-06-17T11:00:38.68",
    "status": "PENDING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 0,
    "workspace_id": "llm-v71tlv3d***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

参数

类型

说明

request_id

String

本次请求的ID。

output

Object

本次部署任务的详细信息。

deployed_model

String

新模型的唯一标识。可用于查询部署详情修改部署限流部署扩缩容删除部署等接口,也在发起模型调用请求时通过SDK参数传入。

gmt_create

String

创建部署任务的时间。

gmt_modified

String

修改部署任务的时间。

status

String

部署任务的状态。

  • PENDING:正在创建部署任务。

  • UPDATING:正在更新部署任务。

  • RUNNING:部署任务正在运行,此时已部署的模型可以正常处理请求。

  • STOPPED:部署任务已经停止,此时的部署任务不会被计费。

  • DELETING:正在删除部署任务。

  • FAILED:部署任务创建或更新失败。

model_name

String

部署任务使用的模型名称。

base_model

String

部署任务使用的模型对应的基础模型ID。

base_capacity

Number

基础模型运行所需的最小资源单元数量。

capacity

Number

部署任务使用的资源单元数量。

ready_capacity

Number

已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。

workspace_id

String

部署任务所属的业务空间ID。

charge_type

String

部署任务的扣费方法。

post_paid:后付费。

creator

String

该部署任务创建人UID。

modifier

String

对该部署任务进行最后一次操作的账号UID。

plan

String

部署任务的计费模式。(部分模式不显示该参数)

模型单元部署方式响应

model_unit_spec

String

模型单元规格。

enable_thinking

Boolean

是否开启思考模式,部分模型支持。

max_context_length

Number

最大上下文长度限制。

rpm_limit

String

Requests per minute,每分钟请求数。

tpm_limit

Number

Token per minute,每分钟 Token 使用量。

仅预置吞吐量(ptu)部署方式响应

ptu_capacity

Object

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段

类型

描述

request_id

String

本次请求的系统唯一码。

code

String

错误码。

message

String

错误信息。

当请求出错时,可能返回以下错误:

错误码

错误信息

错误原因

NotFound

Model: xxx not found!

  • 创建部署任务时指定了不存在的模型。

  • 查询/更新/删除部署任务时指定了不存在的模型。

Conflict

Deployed model xxx already exists, please specify a suffix.

创建部署任务时使用了已使用过的suffix。

InvalidParameter

Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!

创建/更新部署任务时指定了无效的算力单元数量。