全部產品
Search
文件中心

Elastic Compute Service:修複磁碟

更新時間:Jul 01, 2025

當ECS執行個體的本地磁碟因硬體故障、資料異常等原因導致無法正常讀寫時,阿里雲會向您發送本地碟受損事件,您可以通過控制台或者OpenAPI等方式對損壞的本地碟進行隔離或修複等操作。

重要

隔離/修複磁碟會導致原受損本地碟資料丟失且不可恢複,建議您提前做好資料備份

在磁碟隔離/修複期間,您可隨時選擇重新部署本地碟執行個體以快速恢複完整磁碟使用,但該操作將導致所有磁碟資料丟失。

操作流程

  1. 修改設定檔:對於Linux系統執行個體,需要登入執行個體內部修改作業系統內的/etc/fstab設定檔,卸載(即umount)損壞的本地碟裝置,避免更換磁碟操作導致讀寫錯誤磁碟的風險。

  2. 隔離已損壞的磁碟:對損壞的本地碟進行隔離,隔離後,執行個體可以繼續正常使用。

  3. 更換磁碟:阿里雲對損壞的磁碟進行更換。

  4. 恢複磁碟:登入ECS執行個體修改作業系統內的/etc/fstab設定檔,掛載(即mount)新的本地碟裝置。

說明

目前僅巨量資料型執行個體規格類型系列d1、d2、d3系列和本地SSD型執行個體規格類型系列i4支援線上隔離換盤,本地SSD型執行個體規格類型系列i3、i2支援隔離本地碟,不支援更換本地碟。此外,是否需要隔離或恢複本地碟,受到本地碟損壞程度的影響,實際請以頁面顯示流程為準。

操作步驟

修改設定檔(僅Linux)

並非所有的執行個體都需要修改設定檔,如果您的執行個體作業系統不屬於Linux系統請跳過此步驟,如果您的執行個體作業系統屬於Linux系統,在隔離損壞本地碟之前,需要在作業系統內部修改/etc/fstab檔案並卸載損壞的本地碟:

修改設定檔

  1. 遠端連線執行個體

  2. 若您在ECS執行個體/etc/fstab中配置了本地碟的開機自動掛載,請在設定檔中為所有本地碟添加nofail和barrier參數,確保當本地碟掛載失敗時不影響ECS執行個體的啟動。

    修改前:

    UUID=cf4572d0-****-*** /path/to/mountpoint fstype defaults 0 0

    修改後:

    UUID=cf4572d0-****-*** /path/to/mountpoint fstype defaults,nofail,barrier=0 0 0

    參數設定

    說明

    UUID

    本機資料盤的UUID,可通過blkid命令查詢。

    /path/to/mountpoint

    本地碟掛載點,可通過blkid命令查詢。

    fstype

    檔案系統類型,可通過blkid命令查詢。

    barrier

    是否開啟寫入屏障功能,0表示禁用,1表示啟用。

    nofail

    磁碟掛載失敗不會影響執行個體的啟動。

  3. 卸載損壞的本地碟。

    重要

    如果不進行卸載操作,在壞盤維修完成後,該本地碟的對應裝置名稱會發生變化,可能導致應用讀寫錯誤。

    umount /path/to/mountpoint

隔離已損壞的磁碟

控制台操作

  1. 訪問ECS控制台-事件

  2. 事件頁面左側導覽列,單擊本地碟執行個體事件 > 本地碟受損事件,在目標事件操作列單擊修複磁碟image

  3. 在修改設定階段,確認已完成修改設定檔後,單擊下一步

    修改配置

  4. 隔離壞盤階段,單擊隔離等待隔離完成,如果您的引導頁面出現重啟階段,則需要進行重啟。image

    說明

    如果幾分鐘後仍然沒有進入下一階段,您可嘗試重新整理頁面。

API操作

  1. 查詢系統事件。

    調用DescribeInstanceHistoryEvents查詢指定地區下問詢中Inquiring)狀態的系統事件,並記錄返回的事件IDEventId)和事件名稱(Name)。

  2. 授權並執行隔離已損壞的磁碟。

    調用AcceptInquiredSystemEvent授權阿里雲對損壞的磁碟進行隔離操作。

    • 事件名稱為SystemMaintenance.IsolateErrorDisk時:

      • 返回RequestId,無需重啟執行個體,等待阿里雲進行換盤操作。

      • 返回了code:SwitchToOffline.OnlineIsolateFail,需要重啟執行個體

    • 事件名稱為SystemMaintenance.RebootAndIsolateErrorDisk時:調用AcceptInquiredSystemEvent後,需要重啟執行個體

說明

重啟執行個體後,被隔離的受損本地碟暫時變為1 MiB的Dummy硬碟。您需要在應用程式層持續隔離受損本地碟的讀寫操作和/etc/fstab檔案中的nofailbarrier設定。

更換磁碟

您無需進行操作,請等待阿里雲更換損壞的本地碟,更換操作預計在五個工作日內完成,您可以在本地碟事件頁面中查看處理進度。

恢複磁碟

控制台操作

  1. 事件進度變為待恢複時,表示事件處於恢複磁碟階段,單擊操作列中的修複磁碟,然後在彈窗中單擊恢複磁碟按鈕。

    image

  2. 如果您的引導頁面出現重啟階段,則需要進行重啟。

  3. 事件進度變為事件已處理時,表示事件已經處理完畢。

API操作

  1. 查詢系統事件。

    調用DescribeInstanceHistoryEvents查詢系統事件。阿里雲完成磁碟更換後會發布SystemMaintenance.ReInitErrorDiskSystemMaintenance.RebootAndReInitErrorDisk事件,

  2. 授權恢複磁碟。

    調用AcceptInquiredSystemEvent授權執行恢複磁碟操作。

    • 事件名稱為SystemMaintenance.ReinitErrorDisk時:

      • 只返回RequestId,無需重啟執行個體。

      • 返回code=SwitchToOffline.OnlineReInitFail,需要重啟執行個體

    • 事件名稱為SystemMaintenance.RebootAndReinitErrorDisk時:調用AcceptInquiredSystemEvent後,需要重啟執行個體

後續步驟

磁碟修複後,請您檢查ECS執行個體和本地碟狀態。此時被更換的本地碟為新盤,需要初始化後才可使用。具體操作,請參見初始化資料盤(Windows)初始化資料盤(Linux)