如何快速部署一個專屬服務 - Alibaba Cloud Model Studio

本文檔以千問模型的部署為例進行說明，使用 API（HTTP）調用方式協助您使用阿里雲百鍊提供的模型部署功能。

前提條件

您已經完整閱讀了模型部署簡介，熟悉如何在阿里雲百鍊平台進行模型部署的支援的模型和基本步驟。
您需要已擷取API Key並配置API Key到環境變數。請將範例程式碼中的 DASHSCOPE_API_HOST 替換為擷取的 API Host。

1. 部署模型

下面的命令使用已經調優好的自訂模型qwen3-8b-ft-202511132025-0260，建立一個專屬服務qwen3-8b-ft-202511132025-0260。

擷取自訂模型 ID 的方法：前往百鍊控制台-模型調優，點擊需要部署的任务名称 -> 产出 -> 點擊藍色字型的模型名稱，進入我的模型頁面，在模型基本資料地區可查看模型 ID。

使用模型 ID 作為輸入的model_name參數，即可使用 API 部署該模型。

按預置吞吐（PTU）計費

說明

執行以下部署命令後，即便您還沒有調用模型，模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則，再執行部署命令。

按預置吞吐計費模式按預置吞吐的使用時間長度收費，適用於追求穩定吞吐保障和高並發低延遲、且流量可預估的情境。該模式下，吞吐/並發和產生速度均為平台預置，使用者不可調。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_flash",
    "model_name": "qwen-flash-2025-07-28",
    "plan": "ptu",
    "ptu_capacity": {
        "input_tpm": 10000,
	"output_tpm": 1000
    }
}'

按模型單元的使用時間長度計費

說明

執行以下部署命令後，即便您還沒有調用模型，模型部署服務仍將在部署成功後開始計費。建議您先確認服務計費規則，再執行部署命令。
模型單元-後付費方式的算力資源先買到先得。如購買不成功會全額退款。

選擇按模型單元計費計費方式，計費模式為按模型單元的使用時間長度收費，適用情境為模型調優後的大規模推理業務，資源專屬，效能和成本靈活可調；吞吐/並發和產生速度均為客戶自訂。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_plus",
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型單元部署模式還支援以下更多設定：

配置內容	配置詳情
配置模型推理模式	部分模型在以模型单元方式部署時，可配置推理模式、最長上下文等。 Instruct - 模型部署後以非思考模式進行推理。 Thinking - 模型部署後以思考模式進行推理。
最長上下文	部分模型的模型单元部署模式支援該設定。最長上下文長度基於模型類型。
服務限流	部分模型的模型单元部署模式支援該設定，可限制模型調用的 RPM、TPM。

如何在 API 設定上述內容，請參考：使用 API 建立模型部署任務。

按模型 Token 使用量計費

選擇計費方式為按Token計費，計費模式為按Token用量收費，適用於高性價比訴求且對並發和延遲要求不高的情境。該模式價格優勢最高，吞吐/並發和產生速度均由平台預置，使用者不可調。

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "name": "qwen3-8b-ft"
}'

capacity 參數設定無效，但必須填寫。如需希望擴縮容，請前往百鍊模型部署控制台填寫表單申請。

命令執行成功後，返回如下結果：（以 Lora 部署為例）

{
    "request_id": "83b173ab-2b2f-41aa-8c57-b173e8be934e",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:06:46.405",
        "gmt_modified": "2025-11-20T20:06:46.405",
        "status": "PENDING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "workspace_id": "llm-8v*****",
        "charge_type": "post_paid",
        "creator": "16542*****",
        "modifier": "16542*****",
        "plan": "***"
    }
}

其中deployed_model為專屬服務的唯一ID。

2. 查詢服務狀態

通過以下命令查詢指定專屬服務的詳細資料：

curl "https://dashscope-intl.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json'

命令執行成功後，返回如下結果：

{
    "request_id": "ca36952d-9136-426e-ab08-68a97ad72719",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:32:08",
        "gmt_modified": "2025-11-20T20:42:25",
        "status": "RUNNING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "base_capacity": 2,
        "capacity": 2,
        "ready_capacity": 2,
        "workspace_id": "llm-8v53etv3hwb8orx1",
        "charge_type": "post_paid",
        "creator": "1654290265984853",
        "modifier": "1654290265984853",
        "plan": "mu",
        "model_unit_spec": "MU1"
    }
}

當服務狀態為RUNNING時，服務部署完成。

3. 執行推理請求

說明

若首次使用DashScope SDK，請參考安裝SDK。

請確保 API Key 所在的業務空間與模型部署所在的業務空間相同。

通過SDK對專屬服務發起請求：

from dashscope import Generation
from http import HTTPStatus
import os
response = Generation.call(
    model='qwen3-8b',
    prompt='你是誰？',
    enable_thinking=False,
    api_key=os.getenv('DASHSCOPE_API_KEY'),
)
if response.status_code == HTTPStatus.OK:
    print(response.output)
    print(response.usage)
else:
    print(response.code)
    print(response.message)

代碼執行成功後，返回如下結果：

{"text": "我是Qwen，由阿里雲開發的超大規模語言模型。我被設計用於產生各種類型的文本，如文章、故事、詩歌等，並能根據不同的情境和需求進行對話、解答問題、提供資訊和協助等。很高興為您服務！如果您有任何問題或需要協助，請隨時告訴我。", "finish_reason": "stop", "choices": null}
{"input_tokens": 11, "output_tokens": 63, "total_tokens": 74}

4. 刪除專屬服務

警告

執行以下刪除命令後，模型部署服務將立即開始下線，且不可恢複。您將：

無法調用該模型。
部署服務停止計費。

不再使用的專屬服務，可以通過下面的命令刪除：

curl --request DELETE 'https://dashscope-intl.aliyuncs.com/api/v1/deployments/qwen3-8b-ft-202511132025-0260' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json'

命令執行成功後，返回以下結果：

{
    "request_id": "8f726017-6042-420e-a465-0d366a3aba59",
    "output":
    {
        "deployed_model": "qwen3-8b-ft-202511132025-0260",
        "gmt_create": "2025-11-20T20:32:08",
        "gmt_modified": "2025-11-27T16:35:31.591",
        "status": "DELETING",
        "model_name": "qwen3-8b-ft-202511132025-0260",
        "base_model": "qwen3-8b",
        "base_capacity": 2,
        "capacity": 2,
        "ready_capacity": 2,
        "workspace_id": "llm-8v53etv3hwb8orx1",
        "charge_type": "post_paid",
        "creator": "1654290265984853",
        "modifier": "1654290265984853",
        "plan": "mu",
        "model_unit_spec": "MU1"
    }
}

刪除成功後，再使用2. 查詢服務狀態介面將無法查詢到部署模型的狀態。

API參考

詳細API調用請參考API 詳情。

常見問題

模型部署時報錯許可權不足怎麼辦？

在使用 API 進行模型部署時，需要確保：

API Key 的归属业务空间擁有管理該模型的許可權。請前往百鍊的業務空間管理頁面，檢查對應業務空間的模型部署使用權限設定。
API 呼叫報錯：Workspace xxx does not have deployment privilege for model xxxx。
在對應業務空間的操作列，單擊模型許可權流控設定。
在模型列表中找到目標模型，查看模型部署列的授權狀態。若顯示未授權，單擊操作列的編輯進行授權。
如果提示許可權不足，請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。
API Key 的归属账号在归属业务空间中擁有操作許可權。請前往百鍊控制台，點擊左下角的業務空間，切換到對應業務空間，再點擊檢查對應業務空間的模型部署使用權限設定。
API 呼叫報錯：Workspace access denied。
在左側導覽列點擊許可權管理，確認使用者列表中包含 API Key 的歸屬帳號（類型為主帳號）。
如果提示許可權不足，請聯絡您的組織或 IT 管理員添加相關許可權或代為操作。