全部產品
Search
文件中心

API Gateway:限流

更新時間:Aug 05, 2025

API限流策略專為大模型服務及高並發調用情境設計,採用基於調用Token量的動態控制機制,取代傳統請求數或請求體積的限流方式。該策略可針對消費者身份、請求Header參數、Query參數、用戶端IP等多維度配置限流規則,根據單次API調用消耗的Token總量進行即時計費和流量管控。這種以Token消耗為核心的限流模式能精準匹配大模型計算資源消耗特性,有效防止系統過載、介面濫用及惡意調用,同時保障核心業務在複雜情境下的穩定運行。

策略說明

  • 防止資源過載:通過設定靈活的限流策略(如按消費者、header、query參數、cookie或用戶端IP),可以有效限制高頻調用或惡意請求,避免因資源過載導致系統崩潰或效能下降。同時,建議配合緩衝策略以提升系統效能。

  • 動態調整流量:支援多種限流範圍(如每秒、每分鐘、每小時、每天),可以根據業務需求靈活調整限流規則,確保系統在高並發情境下仍能穩定運行。

  • 多種匹配規則支援:限流策略支援多種匹配規則,能夠滿足高優先順序的複雜業務情境需求。

  • 防止惡意攻擊:通過對特定消費者、header、query參數或cookie進行限流,可以有效限制爬蟲或自動化工具的訪問頻率,保護資料安全。

適用情境

  • 高並發情境:電商大促期間,按使用者單位時間調用Token總量限流,防止惡意高頻調用,保障服務穩定及活動公平。

  • AI 服務調用:對大模型 API 的調用進行限流,避免因突發流量導致服務品質下降或系統崩潰。

  • 多租戶系統:在開放平台或多租戶架構中,為不同租戶分配獨立的限流配額,確保公平性和資源隔離。

  • 惡意攻擊防護:防範針對 AI 介面的爬蟲攻擊、DDoS 攻擊或介面濫用行為,保護系統安全。

操作步驟

  1. 開啟AI網關控制台執行個體頁面,在頂部功能表列選擇目標執行個體所在地區,並單擊目標執行個體ID

  2. 在左側導覽列,單擊Model API,然後單擊目標API名稱進入API詳情頁面。

  3. 單擊策略與外掛程式,然後開啟限流開關並配置相關參數。

    配置項

    說明

    限流

    開啟或關閉限流開關,預設關閉。

    限流策略

    • 限流策略包含5種判斷條件

      • 按請求header:例如,限制header中帶有beta標識的請求,每分鐘限流100tokens。

      • 按請求query參數:例如,限制query參數中user_id=1請求,每分鐘限流100tokens。

      • 按請求cookie:例如,限制cookie中帶有目標標識的請求,每分鐘限流100tokens。

      • 按消費者:例如,任意消費者每分鐘限流1000tokens。

        重要

        配置按消費者限流,需要先開啟消費者認證

      • 按用戶端IP:例如,限制每個用戶端IP每分鐘限流100tokens。

    • 每種判斷條件支援四種限流規則精確匹配首碼匹配正則匹配任意匹配,優先順序:精確匹配 > 首碼匹配 > 正則匹配 > 任意匹配。

      說明

      如果配置了多條規則,則命中任一規則即被攔截。

    • 限流範圍包含每秒每分鐘每小時每天

      說明

      限流的標準包括:按大模型的傳入傳出token大小。

  4. 確認配置資訊並單擊儲存