本文介紹AI 能力概覽。
AI情境下,經過網關的流量有以下三大特徵,是區別於其他業務流量的,分別是:
長串連:由 AI 情境常見的 Websocket 和 SSE 協議決定,長串連的比例很高,要求網關更新配置操作對長串連無影響,不影響業務。
高延時:LLM 推理的響應延時比普通應用要高出很多,使得 AI 應用面向惡意攻擊很脆弱,容易被構造慢請求進行並發攻擊,攻擊者的成本低,但服務端的開銷很高。
大頻寬:結合 LLM 上下文來回傳輸,以及高延時的特性,AI 情境對頻寬的消耗遠超普通應用。如果網關沒有實現較好的串流能力和記憶體回收機制,容易導致記憶體快速上漲。
MSE 雲原生網關應對網關流量有著天然的優勢,特徵分別是:
長串連無損的熱更新:不同於 Nginx 變更配置需要 Reload,導致串連斷開,MSE 雲原生網關基於 Envoy 實現了串連無損的真正熱更新。
安全網關能力:基於MSE 雲原生網關的安全網關能力可以提供 IP/Cookie 等多維度 CC 防護能力,面向 AI 情境,除了QPS,還支援面向 Token 吞吐的限流防護。
高效的串流:MSE 雲原生網關支援完全流式轉寄,並且資料面是基於 C++ 編寫的 Envoy,在大頻寬情境下,所需的記憶體佔用極低。記憶體雖然相比 GPU 很廉價,但記憶體控制不當導致 OOM,導致業務宕機,損失不可估量。
此外,我們提供了全面的AI外掛程式集,提供包含安全防護、多模型適配、可觀測、緩衝、提示詞工程等領域在內的多個開箱即用外掛程式,核心能力如下:
AI 代理外掛程式:支援對接多廠商協議,共支援15家 LLM 供應商,基本涵蓋多數主流大型模型廠商。
AI 內容審核外掛程式:支援對接阿里雲Alibaba Content Security Service雲端服務,可以攔截有害語言、誤導資訊、歧視性言論、違法違規等內容。
AI 統計外掛程式:支援統計 Token 吞吐,支援即時產生 Promethus Metrics,在訪問日誌以及鏈路追蹤的Span中列印相關資訊。
AI 限流外掛程式:支援基於 Token 吞吐進行後端保護式限流,也支援面向調用租戶配置精確的調用額度限制。
AI 開發外掛程式集:提供包含 LLM 結果緩衝、提示詞裝飾等相關能力,可以助力AI應用的開發構建。