阿里雲大語言模型管理功能提供統一平台接入、治理和觀測多種來源模型，支援成本最佳化與效能提升。 - Function Compute

核心概念與整體架構

核心概念

模型：對一個後端大模型服務的邏輯封裝。它定義了模型的來源（API、部署或自訂）、訪問憑證和基礎配置。
模型代理 ：一個部署在阿里雲Function Compute FC上的高效能LLM網關，其核心基於開源專案 LiteLLM 構建。它為您的模型提供統一的訪問入口，並執行您配置的路由、容災和並發控制等進階策略。
代理模式：一種單目標反向 Proxy模式。此模式下的治理執行個體會綁定一個後端模型，所有請求都將直接轉寄至該模型。適用於簡單、單一模型的應用情境。
負載模式 ：一種多目標負載平衡器。此模式下的治理執行個體可綁定多個後端模型，並根據輪詢或加權策略分發請求。適用於需要組合使用多個模型以最佳化成本和效能的複雜情境。

系統架構與資料流

用戶端/應用：通過 HTTP/HTTPS 調用「模型代理」暴露的 API 端點（統一 OpenAI / Chat Completions 相容介面）。
模型代理：接收請求，根據您配置的代理模式或負載模式以及Fallbacks、重試機制等進階策略，決定將請求路由到哪個後端模型。
模型服務：
- API模型：請求被轉寄至外部服務商（如 OpenAI, Anthropic）的 API。
- 自訂模型：請求被轉寄至您指定的、符合 OpenAI API 規範的私人模型服務。
- 部署模型：請求被轉寄至您通過本平台部署在Function Compute Serverless GPU 上的開源模型。
可觀測性 (Log Service SLS)：模型代理層收集所有請求的調用量、時延、錯誤資訊，支援趨勢分析、鏈路追蹤、警示等。

模型接入指南

平台支援三種模型接入方式，以滿足不同情境的需求。

接入 API 模型

適用於直接調用雲端大模型服務，如 OpenAI、Anthropic、Google Gemini 等。

在大語言模型管理頁面，單擊添加模型，然後選擇API模型。
配置模型資訊：
- 名称：為模型設定一個易於識別的唯一標識。
- 描述：說明使用情境，便於團隊協作。
- 服務提供者：從下拉式清單中選擇模型所屬的服務商。此選項會影響 API 呼叫的預設路徑和格式。
- API端點：填寫模型服務的 Base URL（不包含具體的 API 路徑）。平台會自動根據服務商類型拼接/chat/completions 等路徑。
- 配置具體模型：勾選或手動輸入您需要使用的具體模型。
- 憑證配置：選擇使用已有憑證或 API密鑰 來關聯您的API 金鑰。請確保憑證與所選的服務提供者相匹配，否則調用會失敗。
單擊建立模型。

說明

至少選擇 1 個具體模型才能建立成功
服務提供者必須與憑證中配置的 API Key 相匹配，否則後續調用會失敗

接入自訂模型

適用於接入您自行部署在VPC內或公網的、與 OpenAI API 規範相容的任何模型服務。

在大語言模型管理頁面，單擊添加模型，模型類型選擇API模型，服務提供者選擇 自訂服務 。
配置模型資訊：
- VPC網路設定：如果您的模型部署在VPC內，請在此處配置對應的 VPC、子網和 安全性群組，以確保網路連通性。
- API端點：輸入您的模型服務完整的基礎 URL，例如 https://api.example.com/v1。
- 配置具體模型：填寫您在調用時希望使用的模型名稱，例如 my-private-llama。可選開啟工具調用/視覺能力。
- 憑證配置：選擇使用已有憑證或 API密鑰 來關聯您的API 金鑰。請確保憑證與所選的服務提供者相匹配，否則調用會失敗。
單擊 建立模型 。

網路與協議要求：

安全性群組需放通來自模型所在安全性群組的訪問
服務必須嚴格遵循 OpenAI /v1/chat/completions 請求與響應格式。

部署開源模型

此方式允許您將指定的開源模型一鍵部署到阿里雲Function Compute FunModel，獲得一個私人的、可Auto Scaling的模型 API 服務。

在大語言模型管理頁面，單擊添加模型，然後選擇 一鍵部署 。
選擇要部署的模型和所需的計算資源：
- 開源模型：從支援的列表中選擇一個模型。
- 部署配置：選擇合適的 GPU 規格。部署會按Function Compute FC 的 Serverless GPU 資源使用時間長度計費。
如需訪問第三方服務，添加憑證配置。
單擊 開始部署 。部署過程通常需要 5-15 分鐘。您可以在FunModel控制台查看詳細的部署日誌以排查部署過程中的問題。

模型列表常用操作

操作	說明
详情	查看模型 API 端點、支援的模型列表、調用樣本等
编辑	修改憑證、預設參數等
删除	刪除模型（需先解除所有模型代理綁定）

模型詳情頁還提供 cURL / Python / Node.js 等調用模板，方便在本地或應用中直接對接後端模型。

配置模型代理

建立模型代理

在大語言模型管理頁面點擊模型代理。
模式選擇：
- 代理模式：代理單個模型，適用於簡單情境
- 負載模式：代理負載多個模型，按權重分配流量
配置基礎資訊：
- 名称：如 my-first-proxy、proxy-SOYTcS
- 描述：簡要說明用途
- 代理地區：如「華東 1（杭州）」
選擇模型：
- 代理模式：在選擇模型中選定一個已添加的大語言模型，再選擇具體模型
- 負載模式：在模型管理添加多個模型卡片，每個卡片選擇：
  - 已配置的大語言模型
  - 具體模型名
  - 權重（如 50 / 50）
憑證配置（入站訪問憑證）：

決定用戶端訪問模型代理時的身份認證方式，可參考憑證管理進行建立。
選擇推薦規格：
- 入門版（1 核 2G）：個人 / 小流量
- 標準版（2 核 4G）：中小企業
- 專業版（4 核 8G）：高並發情境
點擊開始部署，首次部署一般需要1-2分鐘

部署完成後，在模型代理详情頁可以看到：

運行模式（代理 / 負載）
API 端點
已綁定的模型列表與權重
訪問憑證名稱
進階配置

模型代理進階配置

在模型代理詳情頁點擊編輯治理，可配置以下策略（修改後動態生效）：

基礎策略

配置項	詳細說明與決策建議
請求逾時時間	作用：設定治理執行個體等待後端模型響應的最長時間，預設為600秒。超過該時間，治理執行個體將向用戶端返回逾時錯誤。決策建議：對於響應較慢的模型（如大型產生模型），可適當調高此值。對於需要快速失敗的情境，可適當調低。
重試機制	作用：當調用後端模型遇到臨時性網路錯誤或服務端錯誤（如 HTTP 502, 503, 504）時，自動重新發起請求的次數，預設為3次。決策建議：開啟此功能可顯著提升服務的穩定性。對於非等冪的請求，請謹慎開啟。該機制不會對用戶端錯誤（4xx）或速率限制（429）進行重試。
響應緩衝	作用：開啟後，治理執行個體會緩衝相同請求的成功響應。當再次收到完全相同的請求時，直接返回緩衝結果，無需調用後端模型。決策建議：適合用於高頻、內容固定（如 `temperature=0`）的查詢情境。緩衝鍵基於 `model`, `messages` 等請求體核心欄位產生，僅對非流式請求有效。
Fallbacks	作用：配置一個備用模型。當主模型調用失敗（例如逾時、返回錯誤碼）時，治理執行個體會自動將請求轉寄至備用模型。決策建議：您可以設定一個高效能高成本模型作為主模型，一個低成本模型作為備用，實現服務降級保障。
並發控制	作用：限制能夠同時處理的最大並發請求數。決策建議：用於防止突發流量衝垮後端模型服務，特別是對於有嚴格速率限制的 API 模型或資源有限的部署模型。

擴充配置

配置項	說明
LiteLLM 版本	選擇網關使用的 LiteLLM 版本，建議跟隨控制台推薦的最新穩定版本。
VPC 網路設定	為模型代理指定專用網路，常用於調用 VPC 內自訂模型時的企業級安全情境。

調用模型代理與可觀測性

如何調用模型代理

配置參數

在模型代理詳情頁的使用案例標籤中，您可以看到已產生的調用樣本。實際調用時，請按以下方式配置：
- 要求方法：POST
- 請求地址：
  https://{模型代理網域名稱}/models/{模型代理名稱}/v1/chat/completions
- 要求標頭（Headers）：
  - x-acs-parent-id：當前阿里雲帳號 ID（控制台樣本中會自動給出）
  - X-API-Key：模型代理訪問憑證名稱，例如 agentRun-api
  - Content-Type：application/json
- 請求體（Body）（與 OpenAI Chat Completions 相容）：
  - model：在該模型代理下配置的具體模型名稱，例如 qwen3-max、deepseek-r1
  - messages：對話訊息數組

調用樣本

curl -X POST \
  https://1836055070146700.agentrun-data.ap-southeast-1.aliyuncs.com/models/bailian-model/v1/chat/completions \
  -H "x-acs-parent-id: 1836055070146700" \
  -H "X-API-Key: agentRun-api" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1",
    "messages": [
      { "role": "user", "content": "寫一個20字以內的詩文" }
    ]
  }'

所有通過該代理端點發起的請求，都會被記錄到 SLS，並在控制台可觀測頁展示相應指標。

如果直接調用後端 API 模型的原生端點（繞過模型代理），平台無法對這些請求進行統一觀測和治理。

可觀測能力說明

在模型代理詳情頁的可觀測標籤下，可查看：

調用量：今日 / 累計調用次數
響應效能：平均時延、最大時延、回應時間分布
錯誤統計：錯誤次數、錯誤率
調用趨勢：支援按 1 小時 / 1 天 / 7 天 / 30 天查看調用波動
链路追踪：查看單次請求的完整鏈路，區分網關耗時與模型耗時
日誌分析：基於 SLS 的原始日誌查詢，定位錯誤原因（error_message、response_body 等欄位）

故障排查流程

當請求失敗或效能異常時，可按以下順序排查：

檢查訪問憑證
確認要求標頭中的 API Key 與模型代理綁定的入站憑證一致且未到期。
檢查模型配置與後端憑證
在大語言模型管理中查看對應模型，確認：
- API 端點正確可達
- 關聯的服務商 API Key 有效、額度充足
通過可觀測日誌排查
在模型代理詳情頁的中過濾失敗請求，重點查看：
- status_code
- error_message
- response_body
分析鏈路追蹤
確認效能問題是發生在網關（代理）還是後端模型，以便針對性最佳化。

使用規範與費用建議

配置規範

API 模型：服務提供者、API 端點與憑證需一一對應，避免因端點或 Key 誤配導致 401 / 403 等錯誤。
部署模型：根據模型參數量、顯存需求選擇合適 GPU 規格，避免資源浪費或 OOM。
自訂模型：嚴格遵守 OpenAI API 規範；同時確保 VPC 網路與安全性群組配置允許模型代理訪問目標服務。

費用說明與最佳化

資源類型	計費方式	最佳化建議
模型部署	Function Compute FC Serverless GPU 使用時間長度計費	選用貼合顯存需求的 GPU 規格；按需啟停、避免空轉負載
模型代理	Function Compute FC CPU 使用時間長度計費	按流量選擇入門/標準/專業規格，避免規格過大
Log Service	SLS 日誌儲存量與查詢量計費	合理設定日誌保留周期與查詢頻率