全部產品
Search
文件中心

API Gateway:什麼是AI 網關

更新時間:Nov 28, 2025

概述

在現代企業業務創新中,人工智慧(AI)正逐步成為關鍵驅動力。隨著大語言模型的發展,AI應用情境持續拓展,商用及自建模型正在推動不同領域業務進步,公司專屬應用程式架構亦從微服務、雲原生架構向AI原生架構演化。在此過程中,企業在AI整合、系統穩定性、安全合規及管理複雜性方面面臨諸多挑戰。

為應對上述挑戰,雲原生API Gateway推出AI網關產品,作為企業AI應用與模型服務、工具及其他Agent之間的核心串連組件,通過提供協議轉換、安全防護、流量治理和統一觀測等能力,協助企業構建和管理 AI 原生應用。

公司專屬應用程式 AI 情境所面臨的挑戰

AI及AI應用正廣泛應用於企業各類情境。相較於傳統應用,AI應用具有顯著的架構特徵:以模型為核心,基於模型的推理能力,結合提示詞、工具調用與記憶機制,實現對特定業務需求的支援與響應。

根據AI應用的流量特徵,可將其劃分為以下三類情境:

  • AI應用訪問各類模型服務:AI應用的核心特性在於利用模型能力進行推理與規劃,因此保障模型訪問鏈路的安全性與穩定性至關重要。

  • AI應用調用外部工具:工具作為AI應用與外部系統互動的橋樑,通常通過MCP等標準化協議實現工具調用。

  • AI應用被外部存取:包括被終端使用者或其他AI應用訪問,此類情境下AI應用常通過A2A等協議實現應用間的通訊與調用。

企業在落地上述三類情境時,普遍面臨多樣化的工程挑戰與技術難題。具體包括:

訪問模型服務的挑戰:三多兩高

三多:

  1. 多模型:不同模型供應商的API介面規範、認證機制和調用方式存在差異,導致調用方難以實現跨供應商的統一整合與靈活切換,缺乏標準化的抽象層支援多模型並行調用。

  2. 多模態:與文生文大模型統一相容OpenAI標準不同,多模態模型在傳輸協議(如SSE、WebSocket、WebRTC)、通訊模式(同步/非同步)以及請求響應結構方面缺乏統一標準,介面形態多樣化,增加了系統整合與營運管理的複雜性。

  3. 多情境:不同業務情境對模型服務的需求差異顯著,例如即時語音轉換要求低延遲(low RT),長文本理解則強調處理穩定性,各類情境在限流策略、容錯機制和服務品質保障上的需求各異,需定製化適配。

兩高:

  1. 安全要求高:企業在調用模型服務過程中面臨資料泄露風險,尤其是在使用外部或開源模型時,敏感性資料的傳輸與處理需滿足嚴格的資料合規性要求,包括隱私保護、審計追蹤和存取控制等安全管控措施。

  2. 穩定性要求高:模型服務受限於底層算力資源,普遍存在較低的介面限流閾值,且相比傳統API服務,其響應延遲(RT)和調用成功率波動較大,服務可用性相對不穩定,對上層AI應用的連續性和使用者體驗構成挑戰。

訪問工具的挑戰:精準安全

AI 應用在調用工具時面臨的主要挑戰在於實現高效性與安全性的平衡。

隨著可用工具數量的增長,若將全部工具列表輸入大模型進行推理選擇,會導致 token 消耗顯著上升,增加推理成本;同時,候選工具過多可能引發模型誤選,降低執行準確率。

此外,工具通常與核心商務邏輯直接關聯,不當調用可能擴大系統安全風險面,已出現如 MCP 惡意投毒等新型攻擊手段,對工具訪問機制的安全設計提出了更高要求。

訪問 AI 應用的挑戰:穩定靈活

開發人員可通過多種方式構建 AI 應用,主要包括以下三類:

  • 高代碼開發:基於 Spring AI Alibaba、ADK、LangChain 等架構進行編碼實現。該方式具備最高的靈活性和功能擴充能力,同時對開發人員技術水平有更高要求。

  • 低代碼開發:通過百鍊等平台,以可視化拖拽方式完成應用流程編排。該方式支援快速搭建與迭代,降低開發門檻,適合快速驗證和原型設計。

  • 零代碼開發:利用 JManus 等工具,僅通過提示詞配置即可構建 AI 應用,無需編程,適用於簡單情境的快速部署。

由於不同開發模式在實現形態和架構設計上存在差異,導致 AI 應用的接入方式缺乏統一標準,難以實現與雲原生應用類似的集中化治理與管控。

此外,AI 應用的行為與效能高度依賴底層大模型的能力,其輸出穩定性存在不確定性。若未採取有效隔離與容錯機制,單點故障可能引發連鎖反應,造成依賴該應用的業務系統大規模異常。

AI 網關加持下三大情境的典型實踐

為解決客戶面臨的問題,阿里雲推出AI網關產品,作為AI應用與模型服務、工具及其他Agent之間的橋樑,通過以下三個具體情境展示AI網關的典型實踐。

模型訪問

企業計劃構建AI應用以提升經營效率並探索新業務情境,基於阿里雲平台,在PAI上部署了微調模型,並整合阿里雲百鍊作為兜底服務。針對映像產生等特定需求,採用部署於Function Compute的開源模型。為實現各AI應用對大模型服務的安全、高效調用,企業部署AI網關,按不同應用情境配置Model API,並將流量治理、認證鑒權等管控能力整合至API層,統一對外提供模型訪問入口。

通過 AI 網關可有效解決“三多兩高”問題:

  • 多模型:AI 網關支援多種模型路由策略,包括基於模型名稱、請求比例或特定請求特徵(如 Header)的路由規則。同時,網關可將不同模型供應商的協議統一轉換為 OpenAI 相容介面,使 AI 應用僅需對接單一標準即可實現多模型間的無縫切換。

  • 多模態:AI 網關支援代理 HTTP 和 WebSocket 通訊協定的多模態模型調用,提供統一存取點,使應用能夠以一致方式調用文生文、文生圖、語音辨識等各類模型。此外,管理員還可通過外掛程式機制增強多模態調用的安全性與穩定性。

  • 多情境:推薦根據具體模型應用情境(如文本產生、映像產生、語音辨識等)建立獨立的 Model API,並為每個調用方分配唯一的消費者身份。基於消費者維度實現調用觀測、限流量控制、安全防護及計量計費,保障資源隔離與精細化管理。

  • 安全要求高:AI 網關在網路安全、資料安全和Alibaba Content Security Service三個層面提供全面防護。

    • 網路安全:整合 SSL 憑證、WAF 防護及 IP 黑白名單功能,在網路入口層抵禦惡意流量與攻擊。

    • 資料安全:支援消費者側的身份鑒權,避免 API Key 直接暴露;對後端模型服務實施後端鑒權與 API Key 管理,並可通過 KMS 託管密鑰,防止敏感資訊在網關本地落盤。

    • Alibaba Content Security Service:深度整合 AI 安全護欄能力,實現對違規內容與風險輸入的即時攔截;結合資料脫敏外掛程式,在請求轉寄前去除敏感資訊,確保內容合規。

  • 穩定性要求高:AI 網關從“可觀測”與“可控制”兩個維度提升系統穩定性。

    • 可觀測性:記錄每次請求的來源供應商、目標模型、調用消費者及關鍵計量(如首包延遲、Token 數量),並對限流、攔截、Fallback 等事件進行標記,通過內建監控大盤實現全鏈路可視化。

    • 可控性:提供負載平衡、Fallback 機制、限流策略和緩衝能力,推薦按消費者維度配置治理規則,如 Token 數量限制和並發數控制。管理員可根據監控資料持續最佳化策略,動態調整資源配置,保障系統穩定運行。

工具訪問

企業在完成模型服務的統一訪問體系建設後,識別到AI應用在工具訪問方面存在較多問題,尤其面臨較高的安全風險,需進行重點治理。為此,企業決定對工具訪問的協議和入口實施統一管控。企業架構團隊選定MCP作為工具訪問的標準協議,並利用AI網關提供的HTTP to MCP轉換能力,將現有API自動轉換為MCP Server,支撐業務快速迭代與創新。

AI網關通過以下機制保障工具調用的精準性與安全性:

  • 精準性

    AI網關同時支援接入存量HTTP服務和託管MCP Server。對於存量HTTP服務,使用者可在網關中動態更新工具描述資訊。網關支援工具的靈活編排,可通過建立虛擬MCP Server按需組合工具列表,滿足不同業務情境需求,實現Provider與Consumer獨立定義各自的MCP Server。此外,AI網關提供智慧型工具路由功能,可在網關側根據請求內容自動篩選相關工具集合,僅返回與當前任務匹配的工具列表,有效減少模型推理所需的Token消耗並提升工具選擇準確性。

  • 安全性:在工具存取控制方面,AI網關構建了多層次的安全機制。除支援MCP Server層級的調用鑒權外,還支援對單個工具進行細粒度的存取權限配置,實現基於調用方身份的精細化授權管理,確保不同安全等級的工具可依據風險層級分配相應的存取權限。

Agent 訪問

隨著AI應用數量的增加,企業為解決AI應用間的協同與管理問題,將AI應用統一接入AI網關,並推薦基於A2A協議通過Nacos AI Registry實現服務的註冊與發現。

AI 網關可作為 AI 應用的統一代理服務,具備穩定性與靈活性。

  • 穩定性:AI 網關支援直連多種阿里雲運行平台(如 ACK、FC、SAE),提供主動與被動健全狀態檢查機制,自動隔離異常節點。通過結合灰階發布能力,降低變更風險。並支援多維度限流策略,防止應用過載,保障服務穩定。

  • 靈活性:AI 網關通過服務發現功能,統一暴露部署於不同計算平台的 AI 應用,並提供 REST 到 A2A 協議的轉換能力,實現存量 HTTP 應用向 A2A 協議的自動化升級。對於基於百鍊構建的低代碼 AI 應用,AI 網關支援統一代理接入,並可擴充二次鑒權機制。

此外,AI 網關深度整合阿里雲可觀測體系,AI 應用接入後可一鍵啟用全鏈路觀測能力,覆蓋從應用程式層、MCP 工具到模型調用的完整調用鏈路,實現端到端的追蹤與故障定位。

AI 網關的核心能力

模型、MCP Server與Agent統一代理

AI網關提供包括模型、MCP Server與Agent的代理能力,支援對多種服務類型的統一接入與管理,具體包括:

  • AI 服務:支援各類模型服務的代理,涵蓋百鍊、OpenAI、Minimax、Anthropic、Amazon Bedrock、Azure等廠商的模型服務,同時相容基於Ollama、vLLM、SGLang等自建模型。支援在AI服務中配置API-KEY,並針對內部服務地址指定自訂DNS Server。

  • Agent 服務:支援Agent應用平台的服務,包括百鍊、Dify及使用者自訂的Agent工作負載。可配置API-KEY和APP-ID以實現身份認證與存取控制。

  • Container Service:支援運行在阿里雲ACK或ACS叢集上的服務,單個AI網關執行個體最多可關聯3個容器叢集。

  • Nacos 服務:支援接入註冊於MSE Nacos註冊中心的服務執行個體,適用於普通微服務及MCP Server。

  • DNS 服務:支援通過DNS解析方式訪問後端服務,允許指定專用DNS Server以解析私人網路或內部網域名稱。

  • 固定地址:支援以固定IP列表形式配置後端服務地址,可設定多個IP:Port地址。

  • SAE 服務:支援運行在阿里雲 SAE 上的服務。

  • FC 服務:支援阿里雲Function Compute(FC)服務接入,AI網關可繞過HTTP Trigger,直接與後端服務整合,提升調用效率。

  • 計算巢 MCP 服務:支援由計算巢託管的 MCP Server。

AI網關支援為服務配置健全狀態檢查功能,包含主動健全狀態檢查和被動健全狀態檢查兩種模式。

  • 主動健全狀態檢查:網關依據使用者配置的探測規則,周期性地向服務節點發送健康探測請求,以判斷其可用狀態。

  • 被動健全狀態檢查:網關依據使用者配置的探測規則,結合服務節點在實際請求處理中的表現評估其健康狀態

模型、Agent 的負載平衡和灰階發布

模型的負載平衡和灰階發布

Model API 預置 3 種模型負載平衡能力,分別是:

  • 單模型服務:可指定唯一的大模型服務,支援透傳模型名稱,也可指定模型名稱。當顯示指定模型名稱時,使用者請求中傳入的模型名稱將被忽略。

  • 多模型服務(按模型名稱):支援配置一個或多個大模型服務,並為每個服務設定模型名稱的匹配規則。例如,可定義模型名稱匹配 deepseek-* 的請求調用 DeepSeek 大模型服務,模型名稱匹配 qwen-* 的請求調用阿里雲百鍊大模型服務。

  • 多模型服務(按比例):支援配置一個或多個大模型服務,為每個服務指定對應的模型名稱及請求分配比例。適用於新模型灰階發布等情境。

Model API 支援自訂路由配置,可根據請求特徵(如特定 Header)將請求轉寄至不同的後端服務。

Agent 的灰階發布

與 Model API 類似,Agent API 支援基於請求特徵的灰階發布能力,可根據特定特徵(例如特定 Header)將請求路由至不同的後端服務。

基於消費者等維度鑒權、觀測、限流和計量

AI網關支援基於不同業務來源的獨立鑒權、監控、限流及計量功能,滿足使用者的精細化管理需求。

消費者鑒權

使用者可在 AI 網關上建立不同的消費者,為每個消費者分配請求憑證。對於每一個 Model API、MCP Server 和 Agent API,均可按需開啟消費者鑒權。AI 網關支援 API-KEY、JWT、HMAC 三種消費者鑒權方式。對於安全敏感的情境,使用者可將消費者憑證託管到 KMS 上。

使用者可在 AI 網關中建立多個消費者,並為每個消費者分配獨立的請求憑證。針對 Model API、MCP Server 和 Agent API,可按需啟用消費者認證。AI 網關支援 API-Key、JWT 和 HMAC 三種鑒權方式。對於安全性要求較高的情境,使用者可將消費者憑證託管至 KMS進行安全管理。

消費者觀測和計量

AI 網關提供多維度可觀測性能力,支援按消費者等維度進行監控與分析。關鍵計量包括:

  • QPS:每秒AI請求與響應的數量統計,細分為AI請求QPS、流式響應QPS及非流式響應QPS。

  • 請求成功率:AI請求的成功率,支援按秒、15秒、分鐘粒度進行統計。

  • token 消耗數/s:每秒消耗的Token數量,分為輸入Token、輸出Token及總計Token。

  • 請求平均 RT:在指定時間段內(按秒、15秒、分鐘統計)AI請求的平均回應時間(單位:毫秒),細分項包括非流式RT、流式RT(流式響應全過程時間)、流式首包RT(流式響應首包延遲)。

  • 緩衝的命中數:統計指定時間段內的快取命中次數與未叫用次數。

  • 限流統計:統計指定時間段內被限流的請求數與正常處理的請求數。

  • 按模型的 token 統計:統計不同模型在指定時間段內的Token消耗情況。

  • 按消費者的 token 統計:統計不同消費者在指定時間段內的Token消耗情況。

  • 風險統計:基於Alibaba Content Security Service檢測結果,按風險類型、消費者等維度統計識別出的風險請求。

基於上述可觀測性資料,AI網關可支援以消費者為維度計量計費功能,提供特定消費者在指定時間段內調用特定模型所消耗的Token數量等詳細資料,便於使用者快速實現精準的資源使用計量與計費。

消費者限流

AI 網關支援基於消費者、模型名稱、請求 Header 等多種維度限流策略,可對單位時間內的請求數、並發數、串連數及 Token 數進行限制。

多維度、多模態的 AI 安全防護

AI 網關整合Alibaba Content Security Service防護功能,實現 AI 安全防護能力。支援按 API 配置啟用,可有效防範模型調用過程中的安全風險,包括敏感詞、合規性、提示詞注入攻擊及爆破攻擊等,提升 AI 應用的安全性和穩定性。

AI網關支援針對不同防護維度配置獨立的攔截策略,可防護的維度包括:

  • contentModeration 內容合規檢測

  • promptAttack 提示詞攻擊檢測

  • sensitiveData 敏感內容檢測

  • maliciousFile 惡意檔案檢測

  • waterMark 數字浮水印標識

針對不同防護維度,可分別配置相應的攔截策略,攔截策略包括:

  • :風險等級 low、medium、high 的請求均會被攔截。

  • :風險等級 medium、high 的請求會被攔截。

  • :僅攔截風險等級為 high 的請求。

  • 觀察模式:不攔截請求,僅記錄。

熱插拔、熱更新的策略與擴充外掛程式

AI網關提供豐富的內建擴充策略與外掛程式,同時支援使用者開發自訂外掛程式以滿足特定業務情境需求。

以Model API為例,預置工具精選、安全防護、限流、緩衝及連網搜尋五項核心策略,並支援按需啟用更多策略與外掛程式。

所有策略與外掛程式均支援熱插拔與熱更新,確保配置變更過程中服務流量不受影響。

後續步驟

瞭解 AI 網關網關類型計費說明

建立網關執行個體體驗 AI 網關各項能力。