對比分析是針對多條實驗記錄開展的橫向迴歸分析工具。通過對執行概覽、模型超參數配置、樣本級語義輸出及量化評估指標的深度比對,協助開發人員識別模型在效能與品質維度差異,精準定位效能差異點,為模型迭代提供決策支援。
前提條件
當前工作空間內至少存在 2 條已完成的實驗記錄(最多支援 5 條並行對比)。
進入對比分析
登入AgentLoop控制台,選擇目標工作空間。
在左側導覽列進入實驗&Playground下的實驗管理。
選擇實驗記錄頁簽。
在列表中勾選 2~5 條待對比的實驗記錄。
單擊列表上方的對比分析按鈕,系統將跳轉至專用對比視圖。
對比說明
對比分析支援在側邊欄指定任一記錄為“基準組”,動態調整對比策略與展示維度,旨在提供從宏觀指標到微觀樣本的全方位洞察。
添加/移除記錄
添加記錄:點擊「添加記錄」,在彈窗中搜尋實驗記錄名稱,從列表中選擇要加入對比的記錄(最多 5 條),確認後加入當前對比集合。
移除記錄:在參與對比的記錄列表中移除某條記錄,僅影響當前對比頁,不刪除實驗記錄本身。
基準設定
在對比設定中可將某一條實驗記錄設為 基準。
設為基準後,其他記錄的評估指標可展示為「相對基準的增減幅度」:正值表示優於基準,負值表示低於基準。
頁面會提示「已選擇 xxx 作為基準。其他實驗記錄的指標將顯示相對於此基準的增減幅度……」。
顯示選項
選項 | 說明 |
顯示差異值 | 展示相對於基準(基準)的效能增減幅度,便於快速看出誰更好/更差。 |
文本差異高亮 | 在樣本對比中,對文本差異進行高亮顯示,便於查看輸出差異。 |
評估器
可勾選要參與對比的評估器,對比結果與雷達圖等會按所選評估器展示。
概覽對比
提供實驗記錄的綜合效能看板,用於評估整體迭代效果。
基礎資訊對比表:橫向對齊記錄名稱、執行時間、關聯計劃及資料集範圍,確保對比實驗的基準一致性。
指標可視化:基於多維度評估器產生雷達圖或柱狀圖,直觀展現不同實驗在準確性、安全性、邏輯性等評估維度表現差異。
效能指標分析:對比各實驗的 平均響應延時 (Latency) 與 Token 消耗,評估推理效率與成本分布。
配置對比
對比各實驗分支的底層超參數設定,追溯效果差異的配置根源。
超參數矩陣:對齊各記錄的模型服務(Model)、採樣溫度(Temperature)、最大 Token 數(Max Tokens)、核採樣(Top-P/K)、停止符(Stop)及懲罰係數等。
差異高亮:系統自動識別並標記實驗間的配置偏差,輔助分析參數變動對模型產生品質的影響。