大模型如何進行部署 - Alibaba Cloud Model Studio

您可通過部署獲得獨立的、資源專享的推理服務，以滿足您對高並發、低延遲等不同效能的業務需求。

計費方式

部署前可以在模型部署控制台查看不同模型的預估每小時費用。

說明

計費方式在服務建立後無法更改。如需切換，必須下線已經部署的模型後再重新部署。

	預置吞吐（PTU，Provisioned Throughput Unit）（高吞吐；高效能）	模型单元（自訂效能指標；資源隔離）	Token 用量（調優後隨用隨付/效果驗證）
定義	通過平台預留資源，保障特定TPM 吞吐能力的模型部署方式；在保障額度內不限速。	按使用時間長度與模型單元數量配置算力，資源獨佔的模型部署方式。	以每次調用產生的輸入 Token 與輸出 Token 作為用量計量依據的模型部署方式。
優勢	為高負載生產環境提供穩定的吞吐容量、更低的延遲和更強的資源確定性。相比按Token用量計費，TPS（每秒產生的 Token 數）通常提升約 1.5～2.0 倍。支援設定自動續約。	延遲/吞吐等效能指標可自訂。支援設定自動續約。	不使用不計費。
支援模型	部分預置模型	部分預置模型與所有調優後模型	部分經過 LoRA 調優後的模型
使用情境	銀行App的智能客服（流量穩定，需保障並發體驗）。社交平台的即時內容審核（需穩定處理可預估的流水線任務）。公用雲端翻譯API（為標準套餐使用者提供基準服務保障）。	電商專屬微調大模型（部署私人模型，大促時手動擴容）。醫藥公司的分子篩選模型（需獨佔資源跑長時任務）。自動駕駛模擬（需要進行長時間持續計算）。	調優後模型效果驗證
計費圖示
計費方式	按使用時間長度和預置吞吐隨用隨付、包天	按使用時間長度和模型單元數量隨用隨付、包月	按模型 Token 使用量隨用隨付
擴縮容方式	自助增減輸送量	自助增減模型單元數量	在控制台提交申請，等待人工審核。

產品約束	預付費按天計費。無法提前退費如果單位時間內使用超出購買的輸送量，將自動切換成百鍊提供的模型調用服務。	預付費購買後，若在首月內提前退訂，日單價（≈ 月單價 / 30）將按 1.2 倍計費	只支援部分高效微調（LoRA）後的模型。一個月內不使用將自動釋放。

如需查看單次調用的 Token 使用量及調用次數歷史統計，請前往：模型監控。

計費詳情

按使用時間長度計費（預置吞吐）

費用 = 使用時間長度 × (輸入 TPM 單價 × 輸入 TPM + 輸出 TPM 單價 × 輸出 TPM)

後付費按小時計算：使用時間長度單位為小時，單價取下表"持續 1 小時"列；預付費按天計算：使用時間長度單位為天，單價取下表"持續 1 天"列。

預付費訂單支付後即時生效，有效期間 N 天至第 N 天 23:59 結束。若在 22:00 後下單，到期日將自動順延1天。
預付費訂單到期後，將延後2小時停止服務，停止後資源保留14小時後釋放。
預付費訂單無法提前終止服務。
後付費時，如果賬戶欠費，部署的資源將繼續保留並計費 24 小時，在這 24 小時內服務仍可正常使用。超過 24 小時後系統停止計費，模型部署進入欠費狀態，底層資源將被刪除，但模型部署任務仍會保留。補足欠費後，系統將重新分配資源並恢複使用（恢複後繼續產生費用）。如果您不希望繼續產生費用，可刪除模型部署任務，刪除成功後將不再計費。

當模型輸入超過最長輸入 Token 或超出購買的 TPM 量時，相關調用將自動切換為當前模型的隨用隨付模式。此時，推理效能可能下降，將受業務空間中當前快照模型的公用流量的管控，費用按模型調用（隨用隨付）標準計收。

此時，調用 API 返回 Header 將包含：x-dashscope-ptu-overflow:true。
TPM 統計請前往：模型監控。

縮容情境（降配）的具體降費退費規則請參考：降配退款規則說明。

新加坡

千問

模型名稱	模型代碼	最長輸入Token	後付費輸入 Per 10K TPM/小時	後付費輸出 Per 1K TPM/小時	預付費輸入 Per 10K TPM/天	預付費輸出 Per 1K TPM/天
千問3.7-Max-2026-05-20	qwen3.7-max-2026-05-20	256K	$6	$1.8	$72	$21.6
千問3.7-Plus-2026-05-26	qwen3.7-plus-2026-05-26	256K	$0.96	$0.384	$11.52	$4.608

千問3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	128K	$1.2	$0.72	$14.4	$8.64

千問3.5-Plus-2026-04-20	qwen3.5-plus-2026-04-20	128K	$0.96	$0.576	$11.52	$6.912

DeepSeek

模型名稱	模型代碼	最長輸入Token	後付費輸入 Per 10K TPM/小時	後付費輸出 Per 1K TPM/小時	預付費輸入 Per 10K TPM/天	預付費輸出 Per 1K TPM/天
DeepSeek-v4-Flash	deepseek-v4-flash	256K	$0.72	$0.144	$8.64	$1.728
DeepSeek-v4-Pro	deepseek-v4-pro	256K	$8.64	$1.728	$103.68	$20.736
DeepSeek-v3.2	deepseek-v3.2	64K	$2.05	$0.616	$24.62	$7.387

千問VL

模型名稱

模型代碼

最長輸入Token

後付費輸入

Per 10K TPM/小時

後付費輸出

Per 1K TPM/小時

預付費輸入

Per 10K TPM/天

預付費輸出

Per 1K TPM/天

千問3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128K

$0.48

$0.384

$5.76

$4.608

千問

模型名稱	模型代碼	最長輸入Token	後付費輸入 Per 10K TPM/小時	後付費輸出 Per 1K TPM/小時	預付費輸入 Per 10K TPM/天	預付費輸出 Per 1K TPM/天
千問3.7-Max-2026-05-20	qwen3.7-max-2026-05-20	256K	$3.96	$1.188	$47.53	$14.258
千問3.7-Plus-2026-05-26	qwen3.7-plus-2026-05-26	256K	$0.66	$0.264	$7.92	$3.168

千問3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	128K	$0.67	$0.397	$7.93	$4.753

千問3.5-Plus-2026-04-20	qwen3.5-plus-2026-04-20	128K	$0.26	$0.16	$3.17	$1.9

千問3-Max-2025-09-23	qwen3-max-2025-09-23	128K	$1.11	$0.45	$13.32	$5.4

千問-Flash-2025-07-28	qwen-flash-2025-07-28	128K	$0.06	$0.06	$0.72	$0.72
千問-Plus-2025-12-01	qwen-plus-2025-12-01	128K	$0.28	非思考：$0.07 思考：$0.28	$3.36	非思考：$0.84 思考：$3.36

DeepSeek

模型名稱	模型代碼	最長輸入Token	後付費輸入 Per 10K TPM/小時	後付費輸出 Per 1K TPM/小時	預付費輸入 Per 10K TPM/天	預付費輸出 Per 1K TPM/天
DeepSeek-v4-Flash	deepseek-v4-flash	256K	$0.5	$0.099	$5.94	$1.188
DeepSeek-v4-Pro	deepseek-v4-pro	256K	$5.94	$1.188	$71.3	$14.26
DeepSeek-v3.2	deepseek-v3.2	64K	$1.04	$0.16	$12.48	$1.92
DeepSeek-v3	deepseek-v3	64K	$0.99	$0.396	$11.9	$4.75

千問VL

模型名稱

模型代碼

最長輸入Token

後付費輸入

Per 10K TPM/小時

後付費輸出

Per 1K TPM/小時

預付費輸入

Per 10K TPM/天

預付費輸出

Per 1K TPM/天

千問3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128K

$0.35

$4.2

更多模型

模型名稱

模型代碼

最長輸入Token

後付費輸入

Per 10K TPM/小時

後付費輸出

Per 1K TPM/小時

預付費輸入

Per 10K TPM/天

預付費輸出

Per 1K TPM/天

GLM-5.2

glm-5.2

$3.96

$1.386

$47.53

$16.635

GLM-5.1

glm-5.1

64K

$2.97

$1.19

$35.65

$14.26

按使用時間長度計費（模型單元）

費用 = 使用時間長度（小時）× 模型單元數量 × 模型單元單價

"模型單元單價"在後付費情境下取下表"小時單價"列；預付費按月計費時，公式改為 包月數 × 模型單元數量 × 月單價。

預付費購買的首月，如在首月內提前退訂，日單價（≈ 月單價 / 30）將按 1.2 倍計費（不滿一天按一天計費）

說明

模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。

新加坡

文本產生

模型名稱	模型代碼	模型單元規格	小時單價（$）最小計費：分鐘	包月單價（$）最小計費：天
Qwen3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	MU1 x 8	$88	$41,832

Qwen3.5-39B-A17B	qwen3.5-397b-a17b	MU2 x 8	$112	$52,392

Qwen3-14B	qwen3-14b	MU1 x 4	$44	$20,916

DeepSeek-V4-Flash	deepseek-v4-flash	MU1 x 8	$88	$41,832

Qwen-Plus-Character-2025-11-06	qwen-plus-character-2025-11-06	MU1 x 4	$44	$20,916

多模態

模型名稱

模型代碼

模型單元規格

小時單價（$）

最小計費：分鐘

包月單價（$）

最小計費：天

Qwen3-VL-8B-Instruct

qwen3-vl-8b-instruct

MU1 x 2

$22

$10,458

模型類型：

Instruct - 模型部署後以非思考模式進行推理。

華北2（北京）

文本產生

千問

模型名稱	模型代碼	模型單元規格	小時單價（$）最小計費：分鐘	包月單價（$）最小計費：天
Qwen3.6-35B-A3B	qwen3.6-35b-a3b	MU8 x 1	$6.464	$3,080.477
Qwen3.6-35B-A3B	qwen3.6-35b-a3b	MU9 x 1	$7.014	$3,383.024
Qwen3.6-Flash-2026-04-16	qwen3.6-flash-2026-04-16	MU1 x 2	$14.852	$7,183.564
Qwen3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	MU1 x 8	$59.408	$28,734.256

Qwen3.5-397B-A17B	qwen3.5-397b-a17b	MU2 x 8	$69.312	$33,044.72
Qwen3.5-397B-A17B	qwen3.5-397b-a17b	MU3 x 8	$150.72	$72,577.152
Qwen3.5-122B-A10B	qwen3.5-122b-a10b	MU1 x 4	$29.704	$14,367.128
Qwen3.5-122B-A10B	qwen3.5-122b-a10b	MU2 x 8	$69.312	$33,044.72
Qwen3.5-35B-A3B	qwen3.5-35b-a3b	MU1 x 2	$14.852	$7,183.564
Qwen3.5-35B-A3B	qwen3.5-35b-a3b	MU2 x 8	$69.312	$33,044.72
Qwen3.5-27B	qwen3.5-27b	MU9 x 1	$7.014	$3,383.024
Qwen3.5-9B	qwen3.5-9b	MU1 x 2	$14.852	$7,183.564
		MU8 x 1	$6.464	$3,080.477
		MU9 x 1	$7.014	$3,383.024
Qwen3.5-Flash-2026-02-23	qwen3.5-flash-2026-02-23	MU1 x 2	$14.852	$7,183.564
Qwen3.5-Plus-2026-02-15	qwen3.5-plus-2026-02-15	MU1 x 8	$59.408	$28,734.256
Qwen3.5-Plus-2026-02-15	qwen3.5-plus-2026-02-15	MU3 x 8	$150.72	$72,577.152

Qwen3-235B-A22B-Instruct	qwen3-235b-a22b-instruct-2507	MU1 x 4	$29.704	$14,367.128
Qwen3-235B-A22B-Instruct	qwen3-235b-a22b-instruct-2507	MU2 x 8	$69.312	$33,044.72
Qwen3-Next-80B-A3B-Instruct	qwen3-next-80b-a3b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen3-32B	qwen3-32b	MU1 x 4	$29.704	$14,367.128
Qwen3-32B	qwen3-32b	MU6 x 4	$13.752	$6,649.98
Qwen3-30B-A3B	qwen3-30b-a3b	MU9 x 2	$14.028	$6,766.048
Qwen3-8B	qwen3-8b	MU1 x 2	$14.852	$7,183.564
		MU2 x 2	$17.328	$8,261.18
		MU5 x 1	$2.888	$1,394.329
Qwen3-4B	qwen3-4b	MU1 x 2	$14.852	$7,183.564
Qwen3-4B	qwen3-4b	MU5 x 1	$2.888	$1,394.329
Qwen3-1.7B	qwen3-1.7b	MU1 x 2	$14.852	$7,183.564
Qwen3-1.7B	qwen3-1.7b	MU5 x 1	$2.888	$1,394.329
Qwen3-Max-2025-09-23	qwen3-max-2025-09-23	MU2 x 8	$69.312	$33,044.72
Qwen3-Max-2025-09-23	qwen3-max-2025-09-23	MU3 x 8	$150.72	$72,577.152

Qwen2.5-32B	qwen2.5-32b-instruct	MU1 x 4	$29.704	$14,367.128
Qwen2.5-14B	qwen2.5-14b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen2.5-7B	qwen2.5-7b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen2.5-7B	qwen2.5-7b-instruct	MU5 x 1	$2.888	$1,394.329
Qwen2.5-3B-Instruct	qwen2.5-3b-instruct	MU5 x 1	$2.888	$1,394.329

Qwen-Flash-2025-07-28	qwen-flash-2025-07-28	MU1 x 4	$29.704	$14,367.128
Qwen-Plus-2025-07-28	qwen-plus-2025-07-28	MU1 x 4	$29.704	$14,367.128
Qwen-Plus-2025-12-01	qwen-plus-2025-12-01	MU1 x 4	$29.704	$14,367.128
Qwen-Plus-Character-2025-11-06	qwen-plus-character-2025-11-06	MU1 x 4	$29.704	$14,367.128

GLM

模型名稱	模型代碼	模型單元規格	小時單價（$）最小計費：分鐘	包月單價（$）最小計費：天
GLM-5.1	glm-5.1	MU3 x 8	$150.72	$72,577.152
GLM-5.1	glm-5.1	MU6 x 16	$55.008	$26,599.92
GLM-5	glm-5	MU3 x 8	$150.72	$72,577.152
GLM-4.7	glm-4.7	MU6 x 16	$55.008	$26,599.92

DeepSeek

模型名稱

模型代碼

模型單元規格

小時單價（$）

最小計費：分鐘

包月單價（$）

最小計費：天

DeepSeek-V4-Flash

deepseek-v4-flash

MU1 x 8

$59.408

$28,734.256

DeepSeek-V3.2

deepseek-v3.2

MU2 x 8

$69.312

$33,044.72

其他模型

模型名稱	模型代碼	模型單元規格	小時單價（$）最小計費：分鐘	包月單價（$）最小計費：天
MiniMax-M2.5	MiniMax-M2.5	MU1 x 8	$59.408	$28,734.256

Kimi-K2.5	kimi-k2.5	MU2 x 8	$69.312	$33,044.72

多模態

千問VL

模型名稱	模型代碼	模型單元規格	小時單價（$）最小計費：分鐘	包月單價（$）最小計費：天
Qwen3-VL-235B-A22B-Instruct	qwen3-vl-235b-a22b-instruct	MU1 x 4	$29.704	$14,367.128
Qwen3-VL-8B-Instruct	qwen3-vl-8b-instruct	MU1 x 2	$14.852	$7,183.564
Qwen3-VL-Flash-2025-10-15	qwen3-vl-flash-2025-10-15	MU1 x 4	$29.704	$14,367.128
Qwen3-VL-Plus-2025-09-23	qwen3-vl-plus-2025-09-23	MU1 x 4	$29.704	$14,367.128

Qwen-VL-Max-2025-08-13	qwen-vl-max-2025-08-13	MU6 x 4	$13.752	$6,649.98
Qwen-VL-OCR-2025-11-20	qwen-vl-ocr-2025-11-20	MU6 x 4	$13.752	$6,649.98

千問Omni

模型名稱

模型代碼

模型單元規格

小時單價（$）

最小計費：分鐘

包月單價（$）

最小計費：天

模型類型：

Instruct - 模型部署後以非思考模式進行推理。
Thinking - 模型部署後以思考模式進行推理。

按模型 Token 使用量

費用 = 模型輸入 Token 數 × 模型輸入單價 + 模型輸出 Token 數 × 模型輸出單價（最小計費單位：1 token）

僅當對下列基本模型完成 SFT 高效訓練並得到自訂模型後，才支援按模型 Token 使用量計費。

新加坡

基本模型

模型代碼

輸入

$/千Token

輸出

$/千Token

千問3-14B

qwen3-14b

$0.00035

非思考模式：$0.0014

思考模式：$0.0042

如果需要部署更多模型，請參考此解決方案並結合具體業務需求選擇最適合的部署方案。

部署方法

您可以在控制台上部署模型，請參考以下操作步驟：

如果提示許可權不足，請參考：部署時提示許可權不足怎麼辦？

前往模型部署控制台。

填寫服務名稱，選擇模型和計費方式，其他設定保持預設，點擊確認。

部署狀態為运行中時，代表該模型已部署成功。

重要

模型部署成功後將產生費用。

部署配置

模型單元

配置內容	配置詳情
服務名稱	自訂部署服務的名稱。
選擇模型	選擇要部署的模型，包括平台預置模型和已調優的模型。
模型單元類型	選擇部署規格，不同規格對應不同的算力和效能。
部署副本數	設定初始部署副本數量，影響服務的並發處理能力。
部署模版	選擇部署模版（如"單機部署"），不同模版對應不同的資源配置方案。僅在模型單元計費模式下可用。
配置模型推理模式	部分模型在以模型单元方式部署時，可配置推理模式、最長上下文等。 Instruct - 模型部署後以非思考模式進行推理。 Thinking - 模型部署後以思考模式進行推理。
最長上下文	部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。
服務限流	部分模型的模型单元部署模式支援該設定，可限制模型調用的 RPM、TPM。

部署列表頁

部署成功後，您可以在部署列表頁查看和管理所有部署服務。列表頁包含以下資訊：

服務名稱：部署服務的名稱，單擊可查看部署詳情。
模型名稱：部署使用的模型。
模型Code：模型部署成功後產生的唯一標識，用於 API 呼叫時指定模型。
部署狀態/事件狀態：包括待部署、部署中、運行中、部署失敗、下線中、服務暫停、已停止、刪除中、退訂停服/欠費停服、停服恢複中、運行中（變更配置中）、運行中（變更配置失敗）等狀態。
計費方式：當前部署服務的計費方式。
部署詳情：模型單元類型、副本數等配置資訊。
限流詳情：展示當前部署服務的 RPM（每分鐘請求數）、TPM（每分鐘 Token 數）等限流配置。
服務時間：展示部署服務的建立時間與到期時間。
操作：根據部署狀態和計費方式，可執行更新、監控、擴縮容、續約、下線、刪除、體驗等操作。

部署後調用

模型部署成功後，支援通過 OpenAI 相容、Dashscope及Assistant SDK進行調用。

在調用已部署成功的模型時，model的取值應為模型部署成功後的模型code。請前往模型部署控制台介面擷取模型code。

DashScope

import os
import dashscope

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "你是誰？"},
]
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'
response = dashscope.Generation.call(
    # 若沒有配置環境變數，請用百鍊API Key將下一行替換為：api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-max-xxx-xxx",  # 請替換為模型部署成功後的code
    messages=messages,
    result_format="message",
    enable_thinking=False,
)
print(response)

OpenAI相容介面

import os
from openai import OpenAI


client = OpenAI(
    # 若沒有配置環境變數，請用百鍊API Key將下一行替換為：api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-max-xxx-xxx",  # 請替換為模型部署成功後的code
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是誰？"},
    ],
    extra_body={"enable_thinking": False},
)
print(completion)

部署服務擴縮容

預置吞吐（按時間長度）：點擊扩缩容按鈕，自助、手動調節執行個體數量。具體降費退費規則請參考：降配退款規則說明。
模型單元（按時間長度）：點擊扩缩容按鈕，自助、手動調節執行個體數量。

此外，您還可以通過操作列的伸縮配置按鈕，配置自動調整策略（包括伸縮閾值、最小/最大副本數、定時伸縮等）。

部署服務下線

前往模型部署控制台，找到要停止的部署服務，根據計費類型點擊對應操作：

模型單元預付費：點擊下线並確認。
後付費：點擊删除並確認。

操作完成後將不再產生計費。

其他動作

除下線外，部署列表頁的操作列還支援以下操作：

更新：更新已部署服務的模型版本，支援全部更新或分批更新（金絲雀發布）。
刪除：隨用隨付服務可直接刪除，停止計費。
續約：預付費服務可續約延長服務時間，支援自動續約。
購買容量包：為預置吞吐部署購買容量包。

常見問題

可以上傳和部署自己的模型嗎？

暫不支援上傳和部署自有模型，建議您持續關注阿里雲百鍊最新動向。

此外，阿里雲人工智慧平台 PAI 提供了部署自有模型的功能，您可以參考PAI-LLM大語言模型部署瞭解部署方法。

部署時提示許可權不足怎麼辦？

如果顯示“缺少該模組的許可權”，請確保您的帳號在該業務空間的許可權管理頁面中擁有模型部署-操作許可權。

如果無法正常操作，請聯絡您的組織或 IT 管理員添加相關許可權或代為檢查許可權問題。
如果部署時報錯“xx業務空間沒有部署xx模型的許可權”，請前往百鍊的業務空間管理頁面，為對應業務空間添加對應模型的部署許可權。

API 呼叫報錯：Workspace xxx does not have deployment privilege for model xxxx。

如果提示許可權不足，請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。