ESSD 雲端硬碟通過三副本儲存和全鏈路資料校正,保障資料的持久性和完整性。本地冗餘 ESSD 雲端硬碟提供 99.9999999%(9個9)的資料可靠性,同城冗餘 ESSD 雲端硬碟提供 99.9999999999%(12個9)的資料可靠性。
技術優勢
資料持久:每份資料自動儲存三個副本,分布在不同機架的物理節點上。一個或兩個副本不可用時,仍可從剩餘副本正常讀寫。
資料正確:資料寫入和儲存的每個環節,都會通過校正演算法產生校正值(類似資料的“指紋”),並逐級比對。資料與校正值不匹配時,立即觸發錯誤修正,防止傳輸和預存程序中的資料損毀。校正由硬體指令加速完成,對讀寫效能幾乎無影響。
故障自愈:檢測到儲存節點故障或副本數不足時,自動從健康副本恢複資料,無需人工幹預,恢複到完整的三副本狀態。整個恢複過程對業務透明。
保障情境
硬體故障導致資料不可用
痛點:硬碟損壞、伺服器宕機、機架斷電等故障不可預測,物理裝置失效後儲存在上面的資料將無法訪問。
技術保證:三副本機制將資料分散儲存在不同物理節點。故障發生時,自動切換到健康副本繼續提供服務,並在後台重建新副本,業務無感知。
靜默資料損毀
痛點:資料在傳輸或預存程序中發生未被察覺的錯誤。其誘因包括記憶體位翻轉、網路傳輸錯誤或硬碟韌體/介質老化等。由於傳統校正方式難以偵測,此類錯誤會引發資料不一致,對資料正確性構成嚴重威脅。
技術保證:全鏈路資料校正在資料寫入的每個環節產生校正資訊,讀取時逐級比對,發現不匹配立即觸發錯誤修正。確保讀取資料與寫入時完全一致。
可靠性技術抵禦基礎設施層的硬體故障和資料損毀。誤刪除、病毒攻擊等應用程式層風險需通過快照防護。
三副本機制
三副本機制旨在解決硬體故障導致的資料不可用問題。寫入雲端硬碟的每一份資料,在底層自動複製為三份,儲存在不同的物理節點上。
資料寫入流程

採用多副本同步寫入機制,只有當全部副本全部寫入成功時,寫操作才會返回成功,否則失敗。該機制保障了資料的強一致性,即任何後續的讀取請求都能訪問最新寫入的資料。
副本分布策略
為避免關聯故障(如機架斷電導致同機架多個副本不可用),三副本自動遵循以下放置策略:
機架隔離:三副本分布在不同機架的儲存節點上,單台機器或者單個機架故障不影響資料可用性。
故障域隔離:本地冗餘 ESSD 雲端硬碟的三個副本分布在同一可用性區域內的不同機架;同城冗餘 ESSD 雲端硬碟的副本跨可用性區域分布,容災能力從機架級提升至可用性區域級。
負載平衡:在滿足隔離要求的前提下,綜合考慮儲存容量、I/O 負載和網路拓撲,以實現全域資源的均衡和最優效能。
故障恢複流程

系統具備自動化的資料自愈能力。當監測到副本數不足時,系統會自動觸發恢複流程。在滿足隔離策略的前提下,選擇新的健康儲存節點,並從現有副本中複製資料,從而快速恢複至完整的三副本狀態。整個過程對業務透明,無需人工幹預。
全鏈路資料校正
全鏈路資料校正旨在解決資料轉送和預存程序中的靜默損壞問題。
校正流程
"全鏈路"指資料從寫入到儲存經過的每一環節均利用CRC(迴圈冗餘校正)校正碼校正資料是否存在錯誤。
I/O 發起後,資料進入Block Storage鏈路,產生初始校正碼。
記憶體搬運後,資料搬運到計算節點記憶體後,比對校正碼,檢測是否存在資料錯誤。
網路傳輸後,資料到達儲存節點網路層後,比對校正碼,檢測傳輸過程中的位元錯誤。
儲存節點接收時,資料寫入儲存節點記憶體後,比對校正碼。
落盤儲存時,資料寫入磁碟後,比對校正碼。
任一環節發現校正碼不匹配,立即觸發錯誤處理。校正由硬體指令加速完成,對讀寫效能幾乎無影響。
處理錯誤
根據錯誤位置採取不同處理方式:
網路傳輸層:自動重傳,直至資料校正通過。
儲存介質:標記壞塊並從其他副本讀取正確資料恢複。
記憶體:由 ECC(記憶體錯誤修正機制)自動糾正,並進行 IO 重試。
常見問題
三副本機制是否表示需要支付 3 倍的儲存費用?
三副本機製為阿里雲資料可靠性保障,其底層 3 倍儲存冗餘成本已由阿里雲承擔,只需支付購買的雲端硬碟容量費用。例如購買40 GiB雲端硬碟,可用空間和計費容量均為40 GiB。
如何進一步保護資料安全?
建立自動快照策略定期備份,異常時可以利用快照復原雲端硬碟。
跨地區複製快照,發生故障時可使用此快照建立資料盤並掛載至備執行個體。
三副本機制可以防止所有資料丟失嗎?
三副本機制抵禦基礎設施層的硬體故障。誤刪除、病毒攻擊等應用程式層風險需通過快照防護。
三副本機制如何保證資料一致性?
採用多副本同步寫入機制,只有當全部副本全部寫入成功時,寫操作才會返回成功,否則失敗。因此可保障資料的強一致性,即任何後續的讀取請求都能訪問最新寫入的資料。