您可通過部署獲得獨立的、資源專享的推理服務,以滿足您對高並發、低延遲等不同效能的業務需求。
本文檔僅適用於“中國內地(北京)”地區。
計費方式
部署前可以在模型部署控制台(北京)查看不同模型的預估每小時費用。
計費方式在服務建立後無法更改。如需切換,必須下線已經部署的模型後再重新部署。
預置吞吐 (高吞吐;高效能) | 模型单元 (白名單開放,請聯絡商務經理;自訂效能指標;資源隔離;模型調優) | |||
定義 | 通過平台預留資源,保障特定TPM 吞吐能力的模型部署方式;在保障額度內不限速。 | 按使用時間長度與模型單元數量配置算力,資源獨佔的模型部署方式。 | ||
優勢 |
|
| ||
支援模型 | 部分預置模型 | 調優後模型 | ||
使用情境 |
|
| ||
計費圖示 |
|
| ||
計費方式 | 按使用時間長度和預置吞吐 隨用隨付、包天 | 按使用時間長度和模型單元數量 隨用隨付、包月 | ||
擴縮容方式 | 自助增減輸送量 | 自助增減模型單元數量 | ||
產品約束 |
| 預付費購買後,若在首月內提前退訂,日單價將按 1.2 倍計費 | ||
如需查看單次調用的 Token 使用量及調用次數歷史統計,請前往:模型監控(北京)。
計費詳情
按使用時間長度計費(預置吞吐)
費用 = 使用時間長度 × (輸入 TPM 單價 × 輸入 TPM + 輸出 TPM 單價 × 輸出 TPM)
預付費訂單支付後即時生效,有效期間 N 天至第 N 天 23:59 結束。若在 22:00 後下單,到期日將自動順延1天。
預付費訂單到期後,將延後2小時停止服務,停止後資源保留14小時後釋放。
預付費訂單無法提前終止服務。
後付費時,如果賬戶欠費,部署的資源將保留並繼續計費 24 小時,之後自動釋放資源。
當模型輸入超過最長輸入 Token 或 超出購買的 TPM 量,相關調用將自動切換為隨用隨付的模型調用,推理效能可能下降,限流佔用業務空間的公用流量,費用按模型調用(隨用隨付)標準計收。
此時,調用 API 返回 Header 將包含:
x-dashscope-ptu-overflow:true。TPM 統計請前往:模型監控(北京)。
模型名稱 | 模型類型 | 最長上下文 (輸入 Token + 輸出 Token) | 最長輸入 Token | 後付費-按小時 | 預付費-按天 | ||
輸入(Per 10k TPM) | 輸出(Per 1k TPM) | 輸入(Per 10k TPM) | 輸出(Per 1k TPM) | ||||
千問3-max-2025-09-23 | Instruct | 128,000 | 128,000 | $1.11 | $0.45 | $13.32 | $5.40 |
千問-plus-2025-12-01 | Instruct | $0.28 | $0.07 | $3.36 | $0.84 | ||
Thinking | $0.28 | $3.36 | |||||
千問-flash-2025-07-28 | Instruct/Thinking | $0.06 | $0.06 | $0.72 | $0.72 | ||
千問3-vl-plus-2025-09-23 | Instruct/Thinking | $0.35 | $0.35 | $4.20 | $4.20 | ||
DeepSeek-v3.2 | Instruct/Thinking | 64,000 | $1.04 | $0.16 | $12.48 | $1.92 | |
模型類型:
Instruct - 模型部署後以非思考模式進行推理。
Thinking - 模型部署後以思考模式進行推理。
按使用時間長度計費(模型單元)
費用 = 使用時間長度(小時)× 模型單元數量 × 模型單元單價
預付費購買的首月,如在首月內提前退訂,日單價將按 1.2 倍計費
模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。
千問
模型名稱 | 模型類型 | 支援限流 | 模型單元規格 | 最長上下文 | 單價 (不滿 1 分鐘按 1 分鐘計費) | 包月單價 (不滿 1 天按 1 天計費) (如在首月內提前退訂,日單價將按 1.2 倍計費) |
千問3-14B | Instruct | I 型模型單元(MU1) | 固定為: 詳情請參考:qwen-3 | $40/小時 | $18,800/月 | |
千問3-32B | Instruct | I 型模型單元(MU1) | 固定為: 詳情請參考:qwen-3 | $40/小時 | $18,800/月 |
模型類型:
Instruct - 模型部署後以非思考模式進行推理。
千問VL
模型名稱 | 模型類型 | 支援限流 | 模型單元規格 | 最長上下文 | 單價 (不滿 1 分鐘按 1 分鐘計費) | 包月單價 (不滿 1 天按 1 天計費) (如在首月內提前退訂,日單價將按 1.2 倍計費) |
千問3-VL-8B-Instruct | Instruct | I 型模型單元(MU1) | 固定為: | $20/小時 | $9,400/月 | |
千問3-VL-8B-Thinking | Thinking |
模型類型:
Instruct - 模型部署後以非思考模式進行推理。
Thinking - 模型部署後以思考模式進行推理。
如果需要部署更多模型,請參考此解決方案並結合具體業務需求選擇最適合的部署方案。
部署方法
您可以在控制台上部署模型,請參考以下操作步驟:
如果提示許可權不足,請參考:部署時提示許可權不足怎麼辦?
|
|
| |
重要 模型部署成功後將產生費用。 |
部署配置
模型單元
配置內容 | 配置詳情 |
配置模型推理模式 | 部分模型在以模型单元方式部署時,可配置推理模式、最長上下文等。
|
最長上下文 | 部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。 |
服務限流 | 部分模型的模型单元部署模式支援該設定,可限制模型調用的 RPM、TPM。 |
部署後調用
模型部署成功後,支援通過 OpenAI 相容、Dashscope及Assistant SDK進行調用。
在調用已部署成功的模型時,model的取值應為模型部署成功後的模型code。請前往模型部署控制台(北京)介面擷取模型code。

DashScope
import os
import dashscope
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你是誰?"},
]
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'
response = dashscope.Generation.call(
# 若沒有配置環境變數,請用百鍊API Key將下一行替換為:api_key="sk-xxx",
api_key=os.getenv("DASHSCOPE_API_KEY"),
model="qwen3-max-xxx-xxx", # 請替換為模型部署成功後的code
messages=messages,
result_format="message",
enable_thinking=False,
)
print(response)
OpenAI相容介面
import os
from openai import OpenAI
client = OpenAI(
# 若沒有配置環境變數,請用百鍊API Key將下一行替換為:api_key="sk-xxx",
api_key=os.getenv('DASHSCOPE_API_KEY'),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3-max-xxx-xxx", # 請替換為模型部署成功後的code
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你是誰?"},
],
extra_body={"enable_thinking": False},
)
print(completion)
部署服務擴縮容
預置吞吐(按時間長度):點擊扩缩容按鈕,自助、手動調節執行個體數量。
模型單元(按時間長度):點擊扩缩容按鈕,自助、手動調節執行個體數量。
部署服務下線
前往模型部署控制台(北京),找到要下線的部署服務,點擊下线並確認。下線後將不再產生計費。

常見問題
可以上傳和部署自己的模型嗎?
暫不支援上傳和部署自有模型,建議您持續關注阿里雲百鍊最新動向。
此外,阿里雲人工智慧平台 PAI 提供了部署自有模型的功能,您可以參考PAI-LLM大語言模型部署瞭解部署方法。
部署時提示許可權不足怎麼辦?
如果顯示“缺少該模組的許可權”,請確保您的帳號在該業務空間的許可權管理頁面中擁有模型部署-操作許可權。

如果無法正常操作,請聯絡您的組織或 IT 管理員添加相關許可權或代為檢查許可權問題。
如果部署時報錯“xx業務空間沒有部署xx模型的許可權”,請前往百鍊的業務空間管理頁面,為對應業務空間添加對應模型的部署許可權。
API 呼叫報錯:
Workspace xxx does not have deployment privilege for model xxxx。

如果提示許可權不足,請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。



