為 LLM 和 Agent 應用提供端到端可觀測能力。通過全鏈路追蹤、提示詞管理和自動化評測,定位執行異常、量化 Token 成本、評估輸出品質,解決 Agent 在生產環境中輸出不可控、成本不可見的問題。
核心能力
LLM 可觀測
LLM 應用涉及複雜且非確定性互動,傳統監控手段難以覆蓋。AI 可觀測提供全面的追蹤功能,協助清晰掌握 LLM 應用中的 Token 消耗量、調用耗時、工具調用等關鍵計量,並支援按不同維度切分。
全鏈路追蹤(Tracing):AI 可觀測將複雜的執行過程劃分為三個核心層級,實現全鏈路可觀測。
Session(會話層):對有多輪使用者互動的 Agent 會話的完整記錄。通過 Session 視圖複盤整個上下文,精準定位 Agent 出現幻覺或上下文漂移的環節。
Trace(追蹤層):從使用者輸入到 Agent 輸出的單次互動。系統通過詳細拆解輸入輸出、執行耗時、Token 消耗,以樹狀和圖狀形式直觀展示 Agent 的執行路徑,協助開發人員快速定位效能瓶頸和高成本環節。
Generation/Span(執行層):對 Trace 中所有原子操作的透明化展示,包括每一步 Generation 和 Span 的執行時間、消耗 Token 以及中間結果,便於進行針對性的最佳化。
會話與使用者跟蹤:支援將多輪對話作為會話進行跟蹤,並關聯使用者資訊。
Agent 可視化:可將 Agent 的執行流程以樹狀或圖狀展示。
靈活的採集方式:支援 Dify、Ragflow 等主流大模型開發架構的零代碼整合,以及基於 Python/JS 原生 SDK、OpenTelemetry 等方式的採集,覆蓋 14+ 主流 AI 架構。
提示詞管理(Prompt Management)
在 Agent 應用的開發和迭代過程中,提示詞的管理至關重要。AI 可觀測提供獨立的提示詞管理能力,將提示詞從代碼中分離,實現版本控制和團隊協作。
Prompt 與代碼解耦:將提示詞從應用代碼中分離,實現獨立管理和部署。
敏捷迭代:在不修改代碼的情況下,快速調整和最佳化提示詞。
A/B 測試:支援通過版本標籤實現提示詞的 A/B 測試,快速驗證最佳化效果。
Playground 實驗場:提供線上實驗環境,可直接測試不同提示詞的效果。
評估(Evaluation)
AI 可觀測提供靈活的評估體系,支援對 LLM 輸出品質進行多維度評估,持續改進 Agent 應用效果。
離線評估 + 線上評估:支援基於資料集的離線評測,以及生產環境的線上評測。
多種評分類型:支援數值型、分類型、布爾型、文本型等多種評分方式。
LLM as a Judge:利用 LLM 對產生結果進行自動評分,實現規模化品質評估。
人工評分和標註:支援建立標註隊列,由人工對產生結果進行評分和標註。
SDK 編程評分:通過 SDK 自訂評分邏輯,整合到 CI/CD 流程中。
產品優勢
100% 相容開源 Langfuse 生態:完全相容 Langfuse SDK 和 API,已有的 Langfuse 整合代碼無需任何修改即可接入。
免營運託管:一鍵開啟服務,自動建立所需資源,無需關心底層基礎設施的部署和營運。
14+ 主流 AI 架構適配:支援 Dify、Ragflow、LangChain、LlamaIndex、OpenAI SDK 等主流架構的零代碼或低代碼整合。
靈活的評估體系:提供從自動化評測到人工標註的完整評估鏈路,滿足不同階段的品質保障需求。
使用情境
情境 | 說明 | 核心價值 |
開發調試 | 通過全鏈路追蹤定位 Agent 執行中的異常和效能瓶頸。 | 縮短排查時間,提升迭代效率。 |
提示詞管理 | 集中管理和迭代提示詞,支援版本控制和 A/B 測試。 | Prompt 與代碼解耦,團隊高效協作。 |
品質評估 | 通過自動評測和人工標註持續評估 Agent 輸出品質。 | 量化輸出品質,驅動持續最佳化。 |
生產監控 | 即時監控生產環境的 Token 消耗、延遲和錯誤率。 | 成本可控,異常可感知。 |
團隊協作 | 通過組織和專案管理,實現多團隊共用可觀測資料。 | 統一可觀測平台,降低協作成本。 |
使用限制
限制項 | 說明 |
執行個體版本要求 | SelectDB 5.0 及以上版本 |
服務狀態 | 當前為邀測階段,需申請白名單後開通。 |
公網訪問 | 使用 LLM as a Judge 等需要訪問公網的功能時,需要為 Litefuse 執行個體所在 VPC 配置公網 SNAT。配置詳情請參見公網 NAT Gateway。 |