使用阿里雲百鍊的模型服務時,需正確選擇地區和部署模式,二者將影響模型服務的響應速度、成本、可用模型及預設限流。
地區:決定您的模型服務存取點(Endpoint/Base URL),以及模型調用過程中產生的待用資料(如提示詞輸入、模型輸出等)的儲存位置。
部署模式:決定模型推理計算的執列區域。
目前,地區與部署模式為系統預設綁定關係,不支援自由組合。
地區選擇
選擇時請考慮:
就近:選擇主要(或大多數)調用端近鄰地區,通常可降低網路延遲,從而提升模型的響應速度。
可用平台功能:阿里雲百鍊為不同地區提供的平台功能有差異,詳見下表。
板塊
功能
新加坡
美國(維吉尼亞)
華北2(北京)
使用
即時推理
批量推理
模型體驗
管理
模型監控
模型警示
傳輸安全
許可權管理
最佳化
模型調優
支援的地區
地區名稱 | 地區 ID | 待用資料儲存位置 |
新加坡 |
| 新加坡 |
美國(維吉尼亞) |
| 維吉尼亞 |
华北2(北京) |
| 北京 |
通過 API 或 SDK 調用模型時,需要使用與地區對應的模型服務存取點,詳情請參見通義千問API參考。
部署模式選擇
不同部署模式支援的模型、模型調用計費、限流有差異。選型建議:
全球:希望使用全球算力資源集區,從而提升模型的可用性及預設限流。
国际:需使用非中國內地計算資源。
美国:希望資料處理與推理行為均發生在美國境內。
中国内地:需使用中國內地計算資源並在中國內地處理資料。
支援的部署模式
部署模式 | 綁定地區 | 模式觸發條件 | 模型推理計算範圍 | 是否涉及跨境計算 |
全球 | 美國(維吉尼亞) | 選擇綁定地區,調用不帶 | 全球 | 是(您需自行確保使用者業務資料跨境處理的合法性) |
国际 | 新加坡 | 選擇綁定地區即可 | 全球(不含中國內地) | 是(您需自行確保使用者業務資料跨境處理的合法性) |
美国 | 美國(維吉尼亞) | 選擇綁定地區,調用帶 | 僅限美國境內 | 否 |
中国内地 | 華北2(北京) | 選擇綁定地區即可 | 僅限中國內地 | 否 |
在全球和國際模式下,跨區推理請求由所選地區的前端存取點接收。模型調用過程中產生的待用資料(如提示詞輸入、模型輸出等)僅在推理過程中進行瞬時處理,不會在計算節點所在地區進行持久化儲存;資料在傳輸過程中全程加密。
如何在控制台切換地區與部署模式
進入阿里雲百鍊控制台,點擊頁面右上方的
地區表徵圖。
新加坡:模型為国际部署模式。
美國(維吉尼亞):您調用的模型將決定部署模式。
不帶
-us尾碼(如qwen-flash):模型為全球部署模式。帶
-us尾碼(如qwen-flash-us):模型為美国部署模式。
华北2(北京):模型為中国内地部署模式。
如何在 API 或 SDK 調用時選擇地區與部署模式
在調用API或SDK時,通過指定模型服務存取點以選擇地區,部署模式則由地區和模型名稱共同決定。以下是 OpenAI 相容模式的存取點資訊,詳情請參見通義千問API參考。
新加坡地區
SDK 調用配置的base_url:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
HTTP 要求地址:POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
美國(維吉尼亞)地區
SDK 調用配置的base_url:https://dashscope-us.aliyuncs.com/compatible-mode/v1
HTTP 要求地址:POST https://dashscope-us.aliyuncs.com/compatible-mode/v1/chat/completions
華北2(北京)地區
SDK 調用配置的base_url:https://dashscope.aliyuncs.com/compatible-mode/v1
HTTP 要求地址:POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
例如,使用美国模式的模型,需要配置美國(維吉尼亞)地區的存取點,並調用帶-us尾碼(如 qwen-flash-us)的模型。同理,若要使用全球模式,也需配置美國(維吉尼亞)地區的存取點,但需調用不帶-us尾碼的模型(如 qwen-flash)。