全部產品
Search
文件中心

Artificial Intelligence Recommendation:系統監控配置和穩定性提升指南

更新時間:Sep 03, 2025

為保障推薦系統在生產環境中的高可用性、高效能和穩定性,您可以參考以下配置與操作建議。

  • 系統監控和警示配置

    • 當一分鐘內(或者幾分鐘)推薦系統的RT數量超出閾值時,觸發警示資訊至DingTalk或手機。

  • Recommendation Engine上線

    • 先配置Recommendation Engine,然後在預發環境測試。觀察推薦診斷功能是否正常。如果使用者有點擊、購買之類的行為,但是推薦結果和使用者行為不相關,例如熱門推薦排在前面,則系統一般存在問題。

    • 再配置一致性檢查,觀察特徵一致之後再上線到生產環境。

  • 排序模型預熱

    • 設定參數:model_config裡配置一個參數:warmup_data_path: '/warmup'

    • 通過推薦結果診斷頁面發送請求,TorchEasyRec會記錄請求的pb檔案到warmup_data_path中。

    • 重啟預熱:會讀取warmup_data_path的請求,自動請求一遍。

      • 每天模型更新時,已經有warmup檔案,不需要再手動預熱。

    • 其他參數:

      • warmup_pb_files: 以pb檔案形式儲存的online request數量, 預設值64。

      • warm_up_count: 每個pb檔案的warmup次數, 預設值20。

      • num_warm_threads: 並發預熱線程池的大小, 預設值4。

  • 排序模型服務

    • 排序模型服務TorchEasyRec參數NO_GRAD_GUARD設定為1,禁止梯度計算。

  • Recommendation Engine配置

    • 精排演算法模型參數BatchCount:預設100,影響每次請求PAI-EAS打分的物品的數量。值越大,每次請求打分越慢。如果預設100,每次粗排或者精排為1000個,候選結果則會分成10次分別請求打分服務。

  • 排序模型的擴縮容

    • 壓測新模型的QPS,然後根據測試結果設定新上線的PAI-EAS服務執行個體數量,最後再切流量。

    • 定時自動擴縮容:在每天QPS的高峰期提前定時擴容。例如晚上8點是高峰期,提前半個小時開始擴容(假設半小時內可以擴容完成)。高峰期結束之後縮容。

    • 水平自動擴縮容:增加按照CPU和GPU利用率(例如:CPU利用率超過50%)或單個執行個體的QPS峰值(根據壓測來設定)做擴容。

    • 排序實驗流量從r1切換到r2的時候,需要提前對r2服務的PAI-EAS資源擴容。

  • Recommendation Engine的擴縮容

    • 同上。

  • 重排邏輯上線

  • 排序側模型降級

  • 客戶側引擎兜底(必選)

    • 客戶側做一個簡單的即時協同過濾推薦或者熱門推薦,當PAI-Rec返回逾時或者返回為空白時,用客戶側的推薦結果。

  • 設定逾時兜底,防止線上出問題

    • 設定調用PAI-RecRecommendation Engine的逾時機制,當結果不足的時候做補足或者替換結果(參考熱門召回)。