全部產品
Search
文件中心

Alibaba Cloud Model Studio:模型部署簡介

更新時間:Mar 31, 2026

您可通過部署獲得獨立的、資源專享的推理服務,以滿足您對高並發、低延遲等不同效能的業務需求。

重要

本文檔僅適用於“中國內地(北京)”地區。

計費方式

部署前可以在模型部署控制台(北京)查看不同模型的預估每小時費用。
說明

計費方式在服務建立後無法更改。如需切換,必須下線已經部署的模型後再重新部署。

預置吞吐

高吞吐;高效能)

模型单元

白名單開放,請聯絡商務經理;自訂效能指標;資源隔離;模型調優)

定義

通過平台預留資源,保障特定TPM 吞吐能力的模型部署方式;在保障額度內不限速。

按使用時間長度與模型單元數量配置算力,資源獨佔的模型部署方式。

優勢

  1. 高負載生產環境提供穩定的吞吐容量、更低的延遲和更強的資源確定性。

  2. 支援設定自動續約。

  1. 延遲/吞吐等效能指標可自訂

  2. 支援設定自動續約。

支援模型

部分預置模型

調優後模型

使用情境

  1. 銀行App的智能客服(流量穩定,需保障並發體驗)。

  2. 社交平台的即時內容審核(需穩定處理可預估的流水線任務)。

  3. 公用雲端翻譯API(為標準套餐使用者提供基準服務保障)。

  1. 電商專屬微調大模型(部署私人模型,大促時手動擴容)。

  2. 醫藥公司的分子篩選模型(需獨佔資源跑長時任務)。

  3. 自動駕駛模擬(需要進行長時間持續計算)。

計費圖示

image

image

計費方式

按使用時間長度和預置吞吐

隨用隨付、包天

按使用時間長度和模型單元數量

隨用隨付、包月

擴縮容方式

自助增減輸送量

自助增減模型單元數量

產品約束

  1. 預付費按天計費。無法提前退費

  2. 如果單位時間內使用超出購買的輸送量,將自動切換成百鍊提供的模型調用服務。

預付費購買後,若在首月內提前退訂,日單價將按 1.2 倍計費

如需查看單次調用的 Token 使用量及調用次數歷史統計,請前往:模型監控(北京)

計費詳情

按使用時間長度計費(預置吞吐)

費用 = 使用時間長度 × (輸入 TPM 單價 × 輸入 TPM + 輸出 TPM 單價 × 輸出 TPM)

  • 預付費訂單支付後即時生效,有效期間 N 天至第 N 天 23:59 結束。若在 22:00 後下單,到期日將自動順延1天。

  • 預付費訂單到期後,將延後2小時停止服務,停止後資源保留14小時後釋放。

  • 預付費訂單無法提前終止服務。

  • 後付費時,如果賬戶欠費,部署的資源將保留並繼續計費 24 小時,之後自動釋放資源。

當模型輸入超過最長輸入 Token 或 超出購買的 TPM 量,相關調用將自動切換為隨用隨付的模型調用,推理效能可能下降,限流佔用業務空間的公用流量,費用按模型調用(隨用隨付)標準計收。

  • 此時,調用 API 返回 Header 將包含:x-dashscope-ptu-overflow:true

  • TPM 統計請前往:模型監控(北京)

模型名稱

模型類型

最長上下文

(輸入 Token + 輸出 Token)

最長輸入 Token

後付費-按小時

預付費-按天

輸入(Per 10k TPM)

輸出(Per 1k TPM)

輸入(Per 10k TPM)

輸出(Per 1k TPM)

千問3-max-2025-09-23

Instruct

128,000

128,000

$1.11

$0.45

$13.32

$5.40

千問-plus-2025-12-01

Instruct

$0.28

$0.07

$3.36

$0.84

Thinking

$0.28

$3.36

千問-flash-2025-07-28

Instruct/Thinking

$0.06

$0.06

$0.72

$0.72

千問3-vl-plus-2025-09-23

Instruct/Thinking

$0.35

$0.35

$4.20

$4.20

DeepSeek-v3.2

Instruct/Thinking

64,000

$1.04

$0.16

$12.48

$1.92

模型類型:

  • Instruct - 模型部署後以非思考模式進行推理。

  • Thinking - 模型部署後以思考模式進行推理。

按使用時間長度計費(模型單元)

費用 = 使用時間長度(小時)× 模型單元數量 × 模型單元單價

  • 預付費購買的首月,如在首月內提前退訂,日單價將按 1.2 倍計費

說明

模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。

千問

模型名稱

模型類型

支援限流

模型單元規格

最長上下文

單價

(不滿 1 分鐘按 1 分鐘計費)

包月單價

(不滿 1 天按 1 天計費)

(如在首月內提前退訂,日單價將按 1.2 倍計費)

千問3-14B

Instruct

不支援

I 型模型單元(MU1)

固定為: 131,072

詳情請參考:qwen-3

$40/小時

$18,800/月

千問3-32B

Instruct

不支援

I 型模型單元(MU1)

固定為: 131,072

詳情請參考:qwen-3

$40/小時

$18,800/月

模型類型:

  • Instruct - 模型部署後以非思考模式進行推理。

千問VL

模型名稱

模型類型

支援限流

模型單元規格

最長上下文

單價

(不滿 1 分鐘按 1 分鐘計費)

包月單價

(不滿 1 天按 1 天計費)

(如在首月內提前退訂,日單價將按 1.2 倍計費)

千問3-VL-8B-Instruct

Instruct

不支援

I 型模型單元(MU1)

固定為: 131,072

$20/小時

$9,400/月

千問3-VL-8B-Thinking

Thinking

不支援

模型類型:

  • Instruct - 模型部署後以非思考模式進行推理。

  • Thinking - 模型部署後以思考模式進行推理。

如果需要部署更多模型,請參考此解決方案並結合具體業務需求選擇最適合的部署方案。

部署方法

您可以在控制台上部署模型,請參考以下操作步驟:

如果提示許可權不足,請參考:部署時提示許可權不足怎麼辦?
  1. 前往模型部署控制台(北京)

image

image

  1. 選擇模型、計費方式,其他設定保持預設,最後設定模型名稱並開始部署。

  1. 部署狀態為运行中時,代表該模型已部署成功。

重要

模型部署成功後將產生費用。

部署配置

模型單元

配置內容

配置詳情

配置模型推理模式

部分模型在以模型单元方式部署時,可配置推理模式、最長上下文等。

  • Instruct - 模型部署後以非思考模式進行推理。

  • Thinking - 模型部署後以思考模式進行推理。

最長上下文

部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。

服務限流

部分模型的模型单元部署模式支援該設定,可限制模型調用的 RPM、TPM。

部署後調用

模型部署成功後,支援通過 OpenAI 相容DashscopeAssistant SDK進行調用。

在調用已部署成功的模型時,model的取值應為模型部署成功後的模型code。請前往模型部署控制台(北京)介面擷取模型code

image

DashScope

import os
import dashscope

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "你是誰?"},
]
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'
response = dashscope.Generation.call(
    # 若沒有配置環境變數,請用百鍊API Key將下一行替換為:api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-max-xxx-xxx",  # 請替換為模型部署成功後的code
    messages=messages,
    result_format="message",
    enable_thinking=False,
)
print(response)

OpenAI相容介面

import os
from openai import OpenAI


client = OpenAI(
    # 若沒有配置環境變數,請用百鍊API Key將下一行替換為:api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-max-xxx-xxx",  # 請替換為模型部署成功後的code
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是誰?"},
    ],
    extra_body={"enable_thinking": False},
)
print(completion)

部署服務擴縮容

  • 預置吞吐(按時間長度):點擊扩缩容按鈕,自助、手動調節執行個體數量。

  • 模型單元(按時間長度):點擊扩缩容按鈕,自助、手動調節執行個體數量。

部署服務下線

前往模型部署控制台(北京),找到要下線的部署服務,點擊下线並確認。下線後將不再產生計費。

image

常見問題

可以上傳和部署自己的模型嗎?

暫不支援上傳和部署自有模型,建議您持續關注阿里雲百鍊最新動向。

此外,阿里雲人工智慧平台 PAI 提供了部署自有模型的功能,您可以參考PAI-LLM大語言模型部署瞭解部署方法。

部署時提示許可權不足怎麼辦?

  1. 如果顯示“缺少該模組的許可權”,請確保您的帳號在該業務空間的許可權管理頁面中擁有模型部署-操作許可權。

    PixPin_2025-11-27_15-09-44

    如果無法正常操作,請聯絡您的組織或 IT 管理員添加相關許可權或代為檢查許可權問題。

  2. 如果部署時報錯“xx業務空間沒有部署xx模型的許可權”,請前往百鍊的業務空間管理頁面,為對應業務空間添加對應模型的部署許可權。

    API 呼叫報錯:Workspace xxx does not have deployment privilege for model xxxx

    PixPin_2025-11-27_15-03-57

    PixPin_2025-11-27_15-06-41

    如果提示許可權不足,請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。