API限流策略專為大模型服務及高並發調用情境設計,採用基於調用Token量的動態控制機制,取代傳統請求數或請求體積的限流方式。該策略可針對消費者身份、請求Header參數、Query參數、用戶端IP等多維度配置限流規則,根據單次API調用消耗的Token總量進行即時計費和流量管控。這種以Token消耗為核心的限流模式能精準匹配大模型計算資源消耗特性,有效防止系統過載、介面濫用及惡意調用,同時保障核心業務在複雜情境下的穩定運行。
策略說明
防止資源過載:通過設定靈活的限流策略(如按消費者、header、query參數、cookie或用戶端IP),可以有效限制高頻調用或惡意請求,避免因資源過載導致系統崩潰或效能下降。同時,建議配合緩衝策略以提升系統效能。
動態調整流量:支援多種限流範圍(如每秒、每分鐘、每小時、每天),可以根據業務需求靈活調整限流規則,確保系統在高並發情境下仍能穩定運行。
多種匹配規則支援:限流策略支援多種匹配規則,能夠滿足高優先順序的複雜業務情境需求。
防止惡意攻擊:通過對特定消費者、header、query參數或cookie進行限流,可以有效限制爬蟲或自動化工具的訪問頻率,保護資料安全。
適用情境
高並發情境:電商大促期間,按使用者單位時間調用Token總量限流,防止惡意高頻調用,保障服務穩定及活動公平。
AI 服務調用:對大模型 API 的調用進行限流,避免因突發流量導致服務品質下降或系統崩潰。
多租戶系統:在開放平台或多租戶架構中,為不同租戶分配獨立的限流配額,確保公平性和資源隔離。
惡意攻擊防護:防範針對 AI 介面的爬蟲攻擊、DDoS 攻擊或介面濫用行為,保護系統安全。
操作步驟
開啟AI網關控制台執行個體頁面,在頂部功能表列選擇目標執行個體所在地區,並單擊目標執行個體ID。
在左側導覽列,單擊Model API,然後單擊目標API名稱進入API詳情頁面。
單擊策略與外掛程式,然後開啟限流開關並配置相關參數。
配置項
說明
限流
開啟或關閉限流開關,預設關閉。
限流策略
限流策略包含5種判斷條件:
按請求header:例如,限制header中帶有
beta標識的請求,每分鐘限流100tokens。按請求query參數:例如,限制query參數中
user_id=1請求,每分鐘限流100tokens。按請求cookie:例如,限制cookie中帶有目標標識的請求,每分鐘限流100tokens。
按消費者:例如,任意消費者每分鐘限流1000tokens。
重要配置按消費者限流,需要先開啟消費者認證。
按用戶端IP:例如,限制每個用戶端IP每分鐘限流100tokens。
每種判斷條件支援四種限流規則:精確匹配、首碼匹配、正則匹配和任意匹配,優先順序:精確匹配 > 首碼匹配 > 正則匹配 > 任意匹配。
說明如果配置了多條規則,則命中任一規則即被攔截。
限流範圍包含每秒、每分鐘、每小時、每天。
說明限流的標準包括:按大模型的傳入傳出token大小。
確認配置資訊並單擊儲存。