當ECS執行個體的本地磁碟因硬體故障、資料異常等原因導致無法正常讀寫時,阿里雲會向您發送本地碟受損事件,您可以通過控制台或者OpenAPI等方式對損壞的本地碟進行隔離或修複等操作。
隔離/修複磁碟會導致原受損本地碟資料丟失且不可恢複,建議您提前做好資料備份。
在磁碟隔離/修複期間,您可隨時選擇重新部署本地碟執行個體以快速恢複完整磁碟使用,但該操作將導致所有磁碟資料丟失。
操作流程
修改設定檔:對於Linux系統執行個體,需要登入執行個體內部修改作業系統內的/etc/fstab設定檔,卸載(即umount)損壞的本地碟裝置,避免更換磁碟操作導致讀寫錯誤磁碟的風險。
隔離已損壞的磁碟:對損壞的本地碟進行隔離,隔離後,執行個體可以繼續正常使用。
更換磁碟:阿里雲對損壞的磁碟進行更換。
恢複磁碟:登入ECS執行個體修改作業系統內的/etc/fstab設定檔,掛載(即mount)新的本地碟裝置。
目前僅巨量資料型執行個體規格類型系列d1、d2、d3系列和本地SSD型執行個體規格類型系列i4支援線上隔離換盤,本地SSD型執行個體規格類型系列i3、i2支援隔離本地碟,不支援更換本地碟。此外,是否需要隔離或恢複本地碟,受到本地碟損壞程度的影響,實際請以頁面顯示流程為準。
操作步驟
修改設定檔(僅Linux)
並非所有的執行個體都需要修改設定檔,如果您的執行個體作業系統不屬於Linux系統請跳過此步驟,如果您的執行個體作業系統屬於Linux系統,在隔離損壞本地碟之前,需要在作業系統內部修改/etc/fstab檔案並卸載損壞的本地碟:
隔離已損壞的磁碟
控制台操作
訪問ECS控制台-事件。
在事件頁面左側導覽列,單擊,在目標事件操作列單擊修複磁碟。

在修改設定階段,確認已完成修改設定檔後,單擊下一步。

在隔離壞盤階段,單擊隔離。等待隔離完成,如果您的引導頁面出現重啟階段,則需要進行重啟。
說明如果幾分鐘後仍然沒有進入下一階段,您可嘗試重新整理頁面。
API操作
查詢系統事件。
調用DescribeInstanceHistoryEvents查詢指定地區下問詢中(
Inquiring)狀態的系統事件,並記錄返回的事件ID(EventId)和事件名稱(Name)。授權並執行隔離已損壞的磁碟。
調用AcceptInquiredSystemEvent授權阿里雲對損壞的磁碟進行隔離操作。
重啟執行個體後,被隔離的受損本地碟暫時變為1 MiB的Dummy硬碟。您需要在應用程式層持續隔離受損本地碟的讀寫操作和/etc/fstab檔案中的nofail和barrier設定。
更換磁碟
您無需進行操作,請等待阿里雲更換損壞的本地碟,更換操作預計在五個工作日內完成,您可以在本地碟事件頁面中查看處理進度。
恢複磁碟
控制台操作
當事件進度變為待恢複時,表示事件處於恢複磁碟階段,單擊操作列中的修複磁碟,然後在彈窗中單擊恢複磁碟按鈕。

如果您的引導頁面出現重啟階段,則需要進行重啟。
當事件進度變為事件已處理時,表示事件已經處理完畢。
API操作
查詢系統事件。
調用DescribeInstanceHistoryEvents查詢系統事件。阿里雲完成磁碟更換後會發布
SystemMaintenance.ReInitErrorDisk或SystemMaintenance.RebootAndReInitErrorDisk事件,授權恢複磁碟。
調用AcceptInquiredSystemEvent授權執行恢複磁碟操作。
後續步驟
磁碟修複後,請您檢查ECS執行個體和本地碟狀態。此時被更換的本地碟為新盤,需要初始化後才可使用。具體操作,請參見初始化資料盤(Windows)或初始化資料盤(Linux)。