大語言模型管理功能為您提供一個統一、高效的平台,用於接入、代理和觀測多種來源的大語言模型。您可以將商業模型、開源模型或私人模型整合至同一工作流程,並通過模型Proxy 原則實現成本最佳化、效能提升和穩定性保障。
核心概念與整體架構
核心概念
-
模型:對一個後端大模型服務的邏輯封裝。它定義了模型的來源(API、部署或自訂)、訪問憑證和基礎配置。
-
模型代理 :一個部署在阿里雲Function Compute FC上的高效能LLM網關,其核心基於開源專案 LiteLLM 構建。它為您的模型提供統一的訪問入口,並執行您配置的路由、容災和並發控制等進階策略。
-
代理模式:一種單目標反向 Proxy模式。此模式下的治理執行個體會綁定一個後端模型,所有請求都將直接轉寄至該模型。適用於簡單、單一模型的應用情境。
-
負載模式 :一種多目標負載平衡器。此模式下的治理執行個體可綁定多個後端模型,並根據輪詢或加權策略分發請求。適用於需要組合使用多個模型以最佳化成本和效能的複雜情境。
系統架構與資料流
-
用戶端/應用:通過 HTTP/HTTPS 調用「模型代理」暴露的 API 端點(統一 OpenAI / Chat Completions 相容介面)。
-
模型代理:接收請求,根據您配置的代理模式或負載模式以及Fallbacks、重試機制等進階策略,決定將請求路由到哪個後端模型。
-
模型服務:
-
API模型:請求被轉寄至外部服務商(如 OpenAI, Anthropic)的 API。
-
自訂模型:請求被轉寄至您指定的、符合 OpenAI API 規範的私人模型服務。
-
部署模型:請求被轉寄至您通過本平台部署在Function Compute Serverless GPU 上的開源模型。
-
-
可觀測性 (Log Service SLS):模型代理層收集所有請求的調用量、時延、錯誤資訊,支援趨勢分析、鏈路追蹤、警示等。
模型接入指南
平台支援三種模型接入方式,以滿足不同情境的需求。
接入 API 模型
適用於直接調用雲端大模型服務,如 OpenAI、Anthropic、Google Gemini 等。
-
在大語言模型管理頁面,單擊添加模型,然後選擇API模型。
-
配置模型資訊:
-
名称:為模型設定一個易於識別的唯一標識。
-
描述:說明使用情境,便於團隊協作。
-
服務提供者:從下拉式清單中選擇模型所屬的服務商。此選項會影響 API 呼叫的預設路徑和格式。
-
API端點:填寫模型服務的 Base URL(不包含具體的 API 路徑)。平台會自動根據服務商類型拼接
/chat/completions等路徑。 -
配置具體模型:勾選或手動輸入您需要使用的具體模型。
-
憑證配置:選擇使用已有憑證或 API密鑰 來關聯您的API 金鑰。請確保憑證與所選的服務提供者相匹配,否則調用會失敗。
-
-
單擊建立模型。
-
至少選擇 1 個具體模型才能建立成功
-
服務提供者必須與憑證中配置的 API Key 相匹配,否則後續調用會失敗
接入自訂模型
適用於接入您自行部署在VPC內或公網的、與 OpenAI API 規範相容的任何模型服務。
-
在大語言模型管理頁面,單擊添加模型,模型類型選擇API模型,服務提供者選擇 自訂服務 。
-
配置模型資訊:
-
VPC網路設定:如果您的模型部署在VPC內,請在此處配置對應的 VPC、子網 和 安全性群組,以確保網路連通性。
-
API端點:輸入您的模型服務完整的基礎 URL,例如
https://api.example.com/v1。 -
配置具體模型:填寫您在調用時希望使用的模型名稱,例如
my-private-llama。可選開啟工具調用/視覺能力。 -
憑證配置:選擇使用已有憑證或 API密鑰 來關聯您的API 金鑰。請確保憑證與所選的服務提供者相匹配,否則調用會失敗。
-
-
單擊 建立模型 。
網路與協議要求:
-
安全性群組需放通來自模型所在安全性群組的訪問
-
服務必須嚴格遵循 OpenAI
/v1/chat/completions請求與響應格式。
部署開源模型
此方式允許您將指定的開源模型一鍵部署到阿里雲Function Compute FunModel,獲得一個私人的、可Auto Scaling的模型 API 服務。
-
在大語言模型管理頁面,單擊添加模型,然後選擇 一鍵部署 。
-
選擇要部署的模型和所需的計算資源:
-
開源模型:從支援的列表中選擇一個模型。
-
部署配置:選擇合適的 GPU 規格。部署會按Function Compute FC 的 Serverless GPU 資源使用時間長度計費。
-
-
如需訪問第三方服務,添加憑證配置。
-
單擊 開始部署 。部署過程通常需要 5-15 分鐘。您可以在FunModel控制台 查看詳細的部署日誌以排查部署過程中的問題。
模型列表常用操作
|
操作 |
說明 |
|
详情 |
查看模型 API 端點、支援的模型列表、調用樣本等 |
|
编辑 |
修改憑證、預設參數等 |
|
删除 |
刪除模型(需先解除所有模型代理綁定) |
模型詳情頁還提供 cURL / Python / Node.js 等調用模板,方便在本地或應用中直接對接後端模型。
配置模型代理
建立模型代理
-
在大語言模型管理頁面點擊模型代理。
-
模式選擇:
-
代理模式:代理單個模型,適用於簡單情境
-
負載模式:代理負載多個模型,按權重分配流量
-
-
配置基礎資訊:
-
名称:如
my-first-proxy、proxy-SOYTcS -
描述:簡要說明用途
-
代理地區:如「華東 1(杭州)」
-
-
選擇模型:
-
代理模式:在選擇模型中選定一個已添加的大語言模型,再選擇具體模型
-
負載模式:在模型管理添加多個模型卡片,每個卡片選擇:
-
已配置的大語言模型
-
具體模型名
-
權重(如 50 / 50)
-
-
-
憑證配置(入站訪問憑證):
決定用戶端訪問模型代理時的身份認證方式,可參考憑證管理進行建立。
-
選擇推薦規格:
-
入門版(1 核 2G):個人 / 小流量
-
標準版(2 核 4G):中小企業
-
專業版(4 核 8G):高並發情境
-
-
點擊開始部署,首次部署一般需要1-2分鐘
部署完成後,在模型代理详情頁可以看到:
-
運行模式(代理 / 負載)
-
API 端點
-
已綁定的模型列表與權重
-
訪問憑證名稱
-
進階配置
模型代理進階配置
在模型代理詳情頁點擊 編輯治理,可配置以下策略(修改後動態生效):
基礎策略
|
配置項 |
詳細說明與決策建議 |
|
請求逾時時間 |
作用:設定治理執行個體等待後端模型響應的最長時間,預設為600秒。超過該時間,治理執行個體將向用戶端返回逾時錯誤。 決策建議:對於響應較慢的模型(如大型產生模型),可適當調高此值。對於需要快速失敗的情境,可適當調低。 |
|
重試機制 |
作用:當調用後端模型遇到臨時性網路錯誤或服務端錯誤(如 HTTP 502, 503, 504)時,自動重新發起請求的次數,預設為3次。 決策建議:開啟此功能可顯著提升服務的穩定性。對於非等冪的請求,請謹慎開啟。該機制不會對用戶端錯誤(4xx)或速率限制(429)進行重試。 |
|
響應緩衝 |
作用:開啟後,治理執行個體會緩衝相同請求的成功響應。當再次收到完全相同的請求時,直接返回緩衝結果,無需調用後端模型。 決策建議:適合用於高頻、內容固定(如 |
|
Fallbacks |
作用:配置一個備用模型。當主模型調用失敗(例如逾時、返回錯誤碼)時,治理執行個體會自動將請求轉寄至備用模型。 決策建議:您可以設定一個高效能高成本模型作為主模型,一個低成本模型作為備用,實現服務降級保障。 |
|
並發控制 |
作用:限制能夠同時處理的最大並發請求數。 決策建議:用於防止突發流量衝垮後端模型服務,特別是對於有嚴格速率限制的 API 模型或資源有限的部署模型。 |
擴充配置
|
配置項 |
說明 |
|
LiteLLM 版本 |
選擇網關使用的 LiteLLM 版本,建議跟隨控制台推薦的最新穩定版本。 |
|
VPC 網路設定 |
為模型代理指定專用網路,常用於調用 VPC 內自訂模型時的企業級安全情境。 |
調用模型代理與可觀測性
如何調用模型代理
-
配置參數
在模型代理詳情頁的使用案例標籤中,您可以看到已產生的調用樣本。實際調用時,請按以下方式配置:
-
要求方法:
POST -
請求地址:
https://{模型代理網域名稱}/models/{模型代理名稱}/v1/chat/completions -
要求標頭(Headers):
-
x-acs-parent-id:當前阿里雲帳號 ID(控制台樣本中會自動給出) -
X-API-Key:模型代理訪問憑證名稱,例如agentRun-api -
Content-Type:application/json
-
-
請求體(Body)(與 OpenAI Chat Completions 相容):
-
model:在該模型代理下配置的具體模型名稱,例如qwen3-max、deepseek-r1 -
messages:對話訊息數組
-
-
-
調用樣本
curl -X POST \ https://1836055070146700.agentrun-data.ap-southeast-1.aliyuncs.com/models/bailian-model/v1/chat/completions \ -H "x-acs-parent-id: 1836055070146700" \ -H "X-API-Key: agentRun-api" \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1", "messages": [ { "role": "user", "content": "寫一個20字以內的詩文" } ] }'所有通過該代理端點發起的請求,都會被記錄到 SLS,並在控制台可觀測頁展示相應指標。
如果直接調用後端 API 模型的原生端點(繞過模型代理),平台無法對這些請求進行統一觀測和治理。
可觀測能力說明
在模型代理詳情頁的可觀測標籤下,可查看:
-
調用量:今日 / 累計調用次數
-
響應效能:平均時延、最大時延、回應時間分布
-
錯誤統計:錯誤次數、錯誤率
-
調用趨勢:支援按 1 小時 / 1 天 / 7 天 / 30 天查看調用波動
-
链路追踪:查看單次請求的完整鏈路,區分網關耗時與模型耗時
-
日誌分析:基於 SLS 的原始日誌查詢,定位錯誤原因(
error_message、response_body等欄位)
故障排查流程
當請求失敗或效能異常時,可按以下順序排查:
-
檢查訪問憑證
確認要求標頭中的 API Key 與模型代理綁定的入站憑證一致且未到期。 -
檢查模型配置與後端憑證
在大語言模型管理中查看對應模型,確認:-
API 端點正確可達
-
關聯的服務商 API Key 有效、額度充足
-
-
通過可觀測日誌排查
在模型代理詳情頁的中過濾失敗請求,重點查看:-
status_code -
error_message -
response_body
-
-
分析鏈路追蹤
確認效能問題是發生在網關(代理)還是後端模型,以便針對性最佳化。
使用規範與費用建議
配置規範
-
API 模型:服務提供者、API 端點與憑證需一一對應,避免因端點或 Key 誤配導致 401 / 403 等錯誤。
-
部署模型:根據模型參數量、顯存需求選擇合適 GPU 規格,避免資源浪費或 OOM。
-
自訂模型:嚴格遵守 OpenAI API 規範;同時確保 VPC 網路與安全性群組配置允許模型代理訪問目標服務。
費用說明與最佳化
|
資源類型 |
計費方式 |
最佳化建議 |
|
模型部署 |
Function Compute FC Serverless GPU 使用時間長度計費 |
選用貼合顯存需求的 GPU 規格;按需啟停、避免空轉負載 |
|
模型代理 |
Function Compute FC CPU 使用時間長度計費 |
按流量選擇入門/標準/專業規格,避免規格過大 |
|
Log Service |
SLS 日誌儲存量與查詢量計費 |
合理設定日誌保留周期與查詢頻率 |