根據用戶使用場景,將OSS的指標分為用戶層級和Bucket(儲存空間)層級兩個層級維度進行監控。

另外,為了更好地觀察監控數據以及匹配計費策略,除了一般監控項的時間序指標外,OSS對現有的監控指標項進行統計分析,提供了一段時間內的統計指標,如請求狀態分布統計和當月計量統計。

除了計量指標和統計指標,所有的指標(時間序指標)都是分鐘等級的數據匯總(如求和、求最大值或者求均值等等)。而計量指標是按小時的數據進行匯總的時間序指標。

用戶層級指標

用戶層級指標是指從用戶的賬戶等級對OSS系統使用的總體情況進行監控的指標資訊,是對該賬戶下的所有的Bucket相關監控數據的匯總。其中包括當月計量統計、服務監控總覽和請求狀態詳情三個方面。
  • 服務監控總覽

    服務監控總覽指標屬於基礎服務指標,具體指標項詳見下表。注意,下面所有的指標都是在用戶層級監控的。

    服務監控總覽指標名稱 單位 描述
    可用性 % 儲存服務的系統可用性衡量指標。通過公式 1 - 服務端錯誤請求(返回狀態碼為5xx)佔總請求的百分比而得到
    有效請求率 % 有效請求佔總請求數的百分比,有效請求的介紹見下面說明
    總請求數 次數 被OSS服務端接收並處理的請求總數
    有效請求數 次數 返回狀態碼為2xx和3xx的請求總數
    公網流出流量 位元組 通過互連網網路的下行流量
    公網流入流量 位元組 通過互連網網路的上行流量
    內網流出流量 位元組 通過服務系統內部網路的下行流量
    內網流入流量 位元組 通過服務系統內部網路的上行流量
    cdn流出流量 位元組 開通cdn加速服務之後,通過cdn產生的下行流量,即回源流量
    cdn流入流量 位元組 開通cdn加速服務之後,通過cdn產生的上行流量
    跨區域複製流出流量 位元組 開通跨區域複製功能之後,數據複製過程產生的下行流量
    跨區域複製流入流量 位元組 開通跨區域複製功能之後,數據複製過程產生的上行流量

    除了以上具體的監控指標,還提供一段時間內的請求狀態分布統計,主要是根據返回的狀態碼或者OSS錯誤碼進行分類的請求的統計資訊(被觀察時間段內的請求次數總和以及佔比),相關的監控指標項資訊詳見以下請求狀態詳情的介紹。

  • 請求狀態詳情

    請求狀態詳情指標是指根據請求返回狀態碼或者OSS錯誤碼進行分類的請求的監控資訊,屬於基礎服務指標,具體指標項詳見下表。注意,下面所有的指標都是在用戶層級監控的。

    請求狀態詳情指標名稱 單位 描述
    服務端錯誤請求總數 次數 返回狀態碼為5xx的系統級錯誤請求總數
    服務端錯誤請求佔比 % 服務端錯誤請求總數佔總請求數的百分比
    網路錯誤請求總數 次數 HTTP狀態碼為499的請求總數,
    網路錯誤請求佔比 % 網路錯誤請求數佔總請求數的百分比
    客戶端授權錯誤請求總數 次數 返回狀態碼403的請求總數
    客戶端授權錯誤請求佔比 % 授權錯誤請求數佔總請求數的百分比
    客戶端資源不存在錯誤請求總數 次數 返回狀態碼為404的請求總數
    客戶端資源不存在錯誤請求佔比 % 資源不存在錯誤請求數佔總請求數百分比
    客戶端逾時錯誤請求總數 次數 返回狀態碼為408或者返回的OSS錯誤碼為RequestTimeout的請求總數
    客戶端逾時錯誤請求佔比 % 網路錯誤請求總數佔總請求數的百分比
    客戶端其他錯誤請求總數 次數 除了以上提到的客戶端錯誤請求之外的其他返回狀態碼為4xx的請求總數
    客戶端其他錯誤請求佔比 % 客戶端其他錯誤請求數佔總請求數的百分比
    成功請求總數 次數 返回狀態碼為2xx的請求總數
    成功請求佔比 % 成功請求數佔總請求數的百分比
    重新導向請求總數 次數 返回狀態碼為3xx的請求總數
    重新導向請求佔比 % 重新導向請求數佔總請求數的百分比
  • 當月計量統計

    當月計量統計指標是指從當月的1號0點開始,到當月計量採集截止時間為止,這段時間內計量指標的統計數據。

    目前統計的計量指標如下:

    當月計量統計指標名稱 單位 描述
    儲存大小 位元組 在計量採集截止時間前屬於該用戶的所有Bucket佔用的儲存總大小
    公網流出流量 位元組 從本月1號0點開始累積到計量採集截止時間為止,用戶所使用的所有公網流出流量的總和。
    Put類請求數 次數 從本月1號0點開始累積到計量採集截止時間為止,用戶所使用的所有Put類請求的總和。
    Get類請求數 次數 從本月1號0點開始累積到計量採集截止時間為止,用戶所使用的所有Get類請求的總和。

Bucket層級指標

Bucket層級指標是指對具體的儲存空間的OSS操作情況進行監控的指標資訊,具有更強的業務場景,所以除了類似從用戶層面可以監控的服務監控總覽和請求狀態詳情這些基礎服務指標項和當月計量統計之外,還有計量參考、延時和成功請求操作分類等計量指標和性能指標。
  • 服務監控總覽

    監控項指標含義同用戶層級的服務監控總覽,從具體的Bucket進行監控。

  • 請求狀態詳情

    監控項指標含義同用戶層級的請求狀態詳情,從具體的Bucket進行監控。

  • 當月計量統計

    統計方式同用戶層級的當月計量統計,從具體的Bucket資源使用方式進行統計。

    當月計量統計指標名稱 單位 描述
    儲存大小 位元組 在計量採集截止時間前該Bucket佔用的儲存大小
    公網流出流量 位元組 從本月1號0點開始累積到計量採集截止時間為止,該Bucket的公網流出流量的總和。
    Put類請求數 次數 從本月1號0點開始累積到計量採集截止時間為止,該Bucket的所有Put類請求的總和。
    Get類請求數 次數 從本月1號0點開始累積到計量採集截止時間為止,該Bucket的所有Get類請求的總和。
  • 計量參考

    計量指標的時間序監控,具體如下:

    當月計量統計指標名稱 單位 描述
    儲存大小 位元組 該Bucket每小時使用的平均儲存大小
    公網流出流量 位元組 該Bucket每小時的公網流出流量的總和
    Put類請求數 次數 該Bucket每小時的Put類請求的總和
    Get類請求數 次數 該Bucket每小時的Get類請求的總和
  • 延時

    請求延時是系統性能的直觀反映。監控服務提供了分鐘等級的平均延時和最大延時兩類指標,分別反映系統平均響應能力和系統抖動情況。並且根據OSS API請求操作類型進行分類,更細粒度地反應系統應對不同操作的性能狀況。目前只對關於Bucket的操作並且涉及數據操作(不包含對meta操作)的API進行監控。

    另外,延時監控指標分別從E2E和伺服器兩條不同的鏈路進行收集,便於分析性能熱點以及環境問題,其中:

    • E2E延時是指向OSS系統發出的成功請求的端到端延隔時間,包括在OSS系統中讀取請求、發送響應以及接受響應確認所需的處理時間。
    • 伺服器延時是指OSS系統成功處理請求所使用的延隔時間,不包括E2E延時中的網路延隔時間。

    注意,性能相關指標都是對成功請求(返回狀態碼為2xx)進行的監控。

    具體的監控指標項如下表:

    延時指標名稱 單位 描述
    GetObject請求平均E2E延時 毫秒 請求API為GetObject的成功請求的平均端到端延時
    GetObject請求平均伺服器延時 毫秒 請求API為GetObject的成功請求的平均伺服器延時
    GetObject請求最大E2E延時 毫秒 請求API為GetObject的成功請求的最大端到端延時
    GetObject請求最大伺服器延時 毫秒 請求API為GetObject的成功請求的最大伺服器延時
    HeadObject請求平均E2E延時 毫秒 請求API為HeadObject的成功請求的平均端到端延時
    HeadObject請求平均伺服器延時 毫秒 請求API為HeadObject的成功請求的平均伺服器延時
    HeadObject請求最大E2E延時 毫秒 請求API為HeadObject的成功請求的最大端到端延時
    HeadObject請求最大伺服器延時 毫秒 請求API為HeadObject的成功請求的最大伺服器延時
    PutObject請求平均E2E延時 毫秒 請求API為PutObject的成功請求的平均端到端延時
    PutObject請求平均伺服器延時 毫秒 請求API為PutObject的成功請求的平均伺服器延時
    PutObject請求最大E2E延時 毫秒 請求API為PutObject的成功請求的最大端到端延時
    PutObject請求最大伺服器延時 毫秒 請求API為PutObject的成功請求的最大伺服器延時
    PostObject請求平均E2E延時 毫秒 請求API為PostObject的成功請求的平均端到端延時
    PostObject請求平均伺服器延時 毫秒 請求API為PostObject的成功請求的平均伺服器延時
    PostObject請求最大E2E延時 毫秒 請求API為PostObject的成功請求的最大端到端延時
    PostObject請求最大伺服器延時 毫秒 請求API為PostObject的成功請求的最大伺服器延時
    AppendObject請求平均E2E延時 毫秒 請求API為AppendObject的成功請求的平均端到端延時
    AppendObject請求平均伺服器延時 毫秒 請求API為AppendObject的成功請求的平均伺服器延時
    AppendObject請求最大E2E延時 毫秒 請求API為AppendObject的成功請求的最大端到端延時
    AppendObject請求最大伺服器延時 毫秒 請求API為AppendObject的成功請求的最大伺服器延時
    UploadPart請求平均E2E延時 毫秒 請求API為UploadPart的成功請求的平均端到端延時
    UploadPart請求平均伺服器延時 毫秒 請求API為UploadPart的成功請求的平均伺服器延時
    UploadPart請求最大E2E延時 毫秒 請求API為UploadPart的成功請求的最大端到端延時
    UploadPart請求最大伺服器延時 毫秒 請求API為UploadPart的成功請求的最大伺服器延時
    UploadPartCopy請求平均E2E延時 毫秒 請求API為UploadPartCopy的成功請求的平均端到端延時
    UploadPartCopy請求平均伺服器延時 毫秒 請求API為UploadPartCopy的成功請求的平均伺服器延時
    UploadPartCopy請求最大E2E延時 毫秒 請求API為UploadPartCopy的成功請求的最大端到端延時
    UploadPartCopy請求最大伺服器延時 毫秒 請求API為UploadPartCopy的成功請求的最大伺服器延時
  • 成功請求操作分類

    配合延時監控,成功請求的監控一定程度上反應了系統處理訪問請求的能力。目前只監控關於Bucket的操作中涉及數據操作的API。詳細的指標項如下:

    成功請求操作分類指標名稱 單位 描述
    GetObject成功請求數 次數 請求API為GetObject的成功請求數
    HeadObject成功請求數 次數 請求API為HeadObject的成功請求數
    PutObject成功請求數 次數 請求API為PutObject的成功請求數
    PostObject成功請求數 次數 請求API為PostObject的成功請求數
    AppendObject成功請求數 次數 請求API為AppendObject的成功請求數
    UploadPart成功請求數 次數 請求API為UploadPart的成功請求數
    UploadPartCopy成功請求數 次數 請求API為UploadPartCopy的成功請求數
    DeleteObject成功請求數 次數 請求API為DeleteObject的成功請求數
    DeleteObjects成功請求數 次數 請求API為DeleteObjects的成功請求數