CloudMonitor監控OSS的常見問題及解決方案 - Object Storage Service

本文介紹在使用阿里雲CloudMonitor產品監控OSS資料時遇到的一些常見問題及解決方案。

OSS將資料推送至CloudMonitor，CloudMonitor進行分析處理。OSS控制台上的儲存容量和頻寬流量監控資料來自CloudMonitor。

OSS資料推送到CloudMonitor會延遲2\~3小時，且單次推送間隔不能超過5分鐘，否則CloudMonitor會拒絕接收到期資料，也不支援補推。因此，不建議根據云監控的資料計算您的費用。如需核對費用，建議聯絡支援人員。

案例：警示規則的狀態出現“資料不足”

問題分析：此問題可以查看使用者概況的服務監控總覽內的資料。如果無資料產生，則會出現資料不足的情況。

問題分析：CloudMonitor平台上查看到的資料是CloudMonitor產品節點發起探測請求獲得的資料，並不代表真實使用者環境。

解決方案：CloudMonitor平台監控到訪問延遲較大的情況，可通過如下步驟排查：

某公司監控系統發現OSS訪問延遲較大，可按以下步驟排查：

抓包分析上傳資料，使用以下參數：

tcpdump -i <出口網卡> -s0 ( 本機出口IP and OSS網域名稱 ) -w result.pcap

問題現象：CloudMonitor出現“Object Storage Service (<)Bucket=p2xxx，userId=135114002(>)，有效請求率（30.51<90% ），期間0分鐘”的報錯。

解決方案：異常請求率是通過2xx+3xx總體數量計算得出，您可以先查看CloudMonitor的 OSS 控制台統計的2xx+3xx及其他異常狀態代碼的佔比，確認是否因異常狀態代碼增加導致有效請求率下降。您也可以開通OSS日誌分析請求行為。

問題現象：CloudMonitor出現“Object Storage Service執行個體：Bucket=***-ali，userId=197*****745，資源不存在錯誤請求數於11:45恢複正常，值為30次，期間5分鐘”的報錯。

問題分析：原因是Bucket資源不存在導致的警示，屬於正常的響應，並非是異常狀態。

問題分析：當用戶端請求OSS資料時，因功能配置不存在，導致404錯誤。200狀態代碼表示使用者已在OSS上配置功能模組，不是異常現象。

問題分析：API的監控資料都是隔天顯示，例如10月13日才能查看10月12日產生的完整資料。

OSS的資料推送到CloudMonitor會延遲1~2小時，且單次推送間隔不能超過5分鐘，否則CloudMonitor會拒絕接收並且不支援補推。因此，不建議使用CloudMonitor資料對賬，因為資料不準確。您可以通過以下方式對賬：

問題分析：CloudMonitor有效請求率的計算公式是：100%-（2xx+3xx)/總請求數量。發現類似情況可查看OSS控制台或OSS log有沒有異常即可。

原因是OSS將整個叢集日誌推送到CloudMonitor時超過了CloudMonitor的接收視窗期，而CloudMonitor不支援補推，所以導致資料為0 。