全部產品
Search
文件中心

Alibaba Cloud Model Studio:使用 API或命令列進行模型部署

更新時間:Jun 06, 2026

本文檔以千問模型的部署為例進行說明,使用 API(HTTP)調用方式協助您使用阿里雲百鍊提供的模型部署功能。

前提條件

1. 部署模型

下面的命令使用已經調優好的自訂模型qwen3-8b-ft-202511132025-0260,建立一個專屬服務qwen3-8b-ft-202511132025-0260

擷取自訂模型 ID 的方法:前往百鍊控制台-模型調優,點擊需要部署的任务名称 -> 产出 -> 點擊藍色字型的模型名稱,進入我的模型頁面,在模型基本資料地區可查看模型 ID。

使用模型 ID 作為輸入的model_name參數,即可使用 API 部署該模型。

按預置吞吐(PTU)計費

說明

執行以下部署命令後,即便您還沒有調用模型,模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則,再執行部署命令。

按預置吞吐計費模式按預置吞吐的使用時間長度收費,適用於追求穩定吞吐保障和高並發低延遲、且流量可預估的情境。該模式下,吞吐/並發產生速度均為平台預置,使用者不可調。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_flash",
    "model_name": "qwen-flash-2025-07-28",
    "plan": "ptu",
    "ptu_capacity": {
        "input_tpm": 10000,
	"output_tpm": 1000
    }
}'

按模型單元的使用時間長度計費

說明
  • 執行以下部署命令後,即便您還沒有調用模型,模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則,再執行部署命令。

  • 模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。

選擇按模型單元計費計費方式,計費模式為按模型單元的使用時間長度收費,適用情境為模型調優後的大規模推理業務,資源專屬,效能和成本靈活可調;吞吐/並發和產生速度均為客戶自訂。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_plus",
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型單元部署模式還支援以下更多設定:

配置內容

配置詳情

配置模型推理模式

部分模型在以模型单元方式部署時,可配置推理模式、最長上下文等。

  • Instruct - 模型部署後以非思考模式進行推理。

  • Thinking - 模型部署後以思考模式進行推理。

最長上下文

部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。

服務限流

部分模型的模型单元部署模式支援該設定,可限制模型調用的 RPM、TPM。

如何在 API 設定上述內容,請參考:使用 API 建立模型部署任務

按模型 Token 使用量計費

選擇計費方式為按Token計費,計費模式為按Token用量收費,適用於高性價比訴求且對並發和延遲要求不高的情境。該模式價格優勢最高,吞吐/並發和產生速度均由平台預置,使用者不可調。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "name": "qwen3-8b-ft"
}'
capacity 參數設定無效,但必須填寫。如需希望擴縮容,請前往百鍊模型部署控制台填寫表單申請。

命令執行成功後,返回如下結果:(以 Lora 部署為例)

{
    "request_id": "83b173ab-2b2f-41aa-8c57-b173e8be934e",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:06:46.405",
        "gmt_modified": "2025-11-20T20:06:46.405",
        "status": "PENDING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "workspace_id": "llm-8v*****",
        "charge_type": "post_paid",
        "creator": "16542*****",
        "modifier": "16542*****",
        "plan": "***"
    }
}

其中deployed_model為專屬服務的唯一ID。

2. 查詢服務狀態

通過以下命令查詢指定專屬服務的詳細資料:

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json' 

命令執行成功後,返回如下結果:

{
    "request_id": "ca36952d-9136-426e-ab08-68a97ad72719",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:32:08",
        "gmt_modified": "2025-11-20T20:42:25",
        "status": "RUNNING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "base_capacity": 2,
        "capacity": 2,
        "ready_capacity": 2,
        "workspace_id": "llm-8v53etv3hwb8orx1",
        "charge_type": "post_paid",
        "creator": "1654290265984853",
        "modifier": "1654290265984853",
        "plan": "mu",
        "model_unit_spec": "MU1"
    }
}

當服務狀態為RUNNING時,服務部署完成。

3. 執行推理請求

說明

若首次使用DashScope SDK,請參考安裝SDK

請確保 API Key 所在的業務空間與模型部署所在的業務空間相同。

通過SDK對專屬服務發起請求:

from dashscope import Generation
from http import HTTPStatus
import os
response = Generation.call(
    model='qwen3-8b',
    prompt='你是誰?',
    enable_thinking=False,
    api_key=os.getenv('DASHSCOPE_API_KEY'),
)
if response.status_code == HTTPStatus.OK:
    print(response.output)
    print(response.usage)
else:
    print(response.code)
    print(response.message)

代碼執行成功後,返回如下結果:

{"text": "我是Qwen,由阿里雲開發的超大規模語言模型。我被設計用於產生各種類型的文本,如文章、故事、詩歌等,並能根據不同的情境和需求進行對話、解答問題、提供資訊和協助等。很高興為您服務!如果您有任何問題或需要協助,請隨時告訴我。", "finish_reason": "stop", "choices": null}
{"input_tokens": 11, "output_tokens": 63, "total_tokens": 74}

4. 刪除專屬服務

警告

執行以下刪除命令後,模型部署服務將立即開始下線,且不可恢複。您將:

  1. 無法調用該模型。

  2. 部署服務停止計費。

不再使用的專屬服務,可以通過下面的命令刪除:

curl --request DELETE 'https://dashscope-intl.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json' 

命令執行成功後,返回以下結果:

{
    "request_id": "8f726017-6042-420e-a465-0d366a3aba59",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:32:08",
        "gmt_modified": "2025-11-27T16:35:31.591",
        "status": "DELETING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "base_capacity": 2,
        "capacity": 2,
        "ready_capacity": 2,
        "workspace_id": "llm-8v53etv3hwb8orx1",
        "charge_type": "post_paid",
        "creator": "1654290265984853",
        "modifier": "1654290265984853",
        "plan": "mu",
        "model_unit_spec": "MU1"
    }
}

刪除成功後,再使用2. 查詢服務狀態介面將無法查詢到部署模型的狀態。

API參考

詳細API調用請參考API 詳情

常見問題

模型部署時報錯許可權不足怎麼辦?

在使用 API 進行模型部署時,需要確保:

  1. API Key 的归属业务空间擁有管理該模型的許可權。請前往百鍊的業務空間管理頁面,檢查對應業務空間的模型部署使用權限設定。

    API 呼叫報錯:Workspace xxx does not have deployment privilege for model xxxx

    在對應業務空間的操作列,單擊模型許可權流控設定

    模型列表中找到目標模型,查看模型部署列的授權狀態。若顯示未授權,單擊操作列的編輯進行授權。

    如果提示許可權不足,請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。

  2. API Key 的归属账号归属业务空间中擁有操作許可權。請前往百鍊控制台,點擊左下角的業務空間,切換到對應業務空間,再點擊image檢查對應業務空間的模型部署使用權限設定。

    API 呼叫報錯:Workspace access denied

    在左側導覽列點擊許可權管理,確認使用者列表中包含 API Key 的歸屬帳號(類型為主帳號)。

    如果提示許可權不足,請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。