效能分析 - Application Real-Time Monitoring Service

為LLM（Large Language Model）應用安裝Python探針後，ARMS即可開始監控LLM應用，您可以在效能分析頁面瞭解LLM應用中大語言模型被調用次數、平均耗時、調用錯誤次數等資訊。

前提條件

已為LLM應用安裝探針，具體操作，請參見LLM 大語言模型應用/推理服務接入 ARMS。

在上方導覽列單擊效能分析。

面板	說明
模型調用次數	應用在指定時間段內調用大語言模型的次數。
模型調用平均耗時	應用在指定時間段內調用大語言模型的平均耗時。
模型調用錯誤次數	應用在指定時間段內調用大語言模型失敗的次數。
模型調用次數/1m	應用每分鐘調用大語言模型的次數。
模型調用平均耗時/1m	應用每分鐘調用大語言模型的平均耗時。
模型調用錯誤/1m	應用每分鐘調用大語言模型失敗的次數。
模型耗時分位元（P99）/1m	應用每分鐘調用大語言模型耗時的P99分位元值（即99%的調用耗時小於該值）。
模型調用首包平均耗時/1m	應用每分鐘調用大語言模型返回首包資料的平均耗時。
模型首包耗時分位元（P99）/1m	應用每分鐘調用大語言模型返回首包耗時的P99分位元值。
模型調用排行（Top5）	按調用次數從高到低排序，展示調用量最高的前5個模型。
模型調用平均耗時排行（Top5）	按平均耗時從高到低排序，展示耗時最長的前5個模型。
模型調用錯誤排行（Top5）	按調用錯誤次數從高到低排序，展示錯誤率最高的前5個模型。