通過雲助手外掛程式可以對當前執行個體的GPU卡狀態或驅動狀態等方面進行全方位診斷,協助您快速檢測使用GPU時遇到的一些常見問題(例如GPU卡異常、驅動異常等),一旦診斷出異常情況,可以自動發起營運動作,例如發送通知給使用者等。
操作步驟
本文適用於診斷Linux作業系統GPU執行個體,該GPU執行個體在建立時已預設預裝了雲助手外掛程式,關於雲助手的詳細資料,請參見雲助手概述。
登入ECS管理主控台。
在左側導覽列,選擇。
在頁面左側頂部,選擇目標GPU執行個體所在地區。
在ECS執行個體頁簽下的執行個體列表,選擇目標執行個體,單擊對應操作欄下的執行命令。
在建立執行命令面板的命令資訊地區,完成參數配置。
主要參數配置項如下所示,其他參數保持預設。更多資訊,請參見建立命令。
重要參數取值必須按照下文提供的取值來設定,否則可能會導致雲助手執行失敗。

①命令類型:選擇Shell。
②命令內容:粘貼如下命令。有關Shell命令的樣本,請參見查看執行個體系統配置。
if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1 then acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck fi acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck③逾時時間:命令執行逾時時間。當執行命令的任務逾時後,雲助手將強制終止任務進程。取值:180。
說明逾時時間僅支援設定為正整數,單位為秒,取值範圍:10~86400秒(24小時)。
單擊執行,通過雲助手命令診斷GPU執行個體健康狀態。
執行結果中各檢查項均顯示
OK狀態,表示GPU診斷無異常。
執行結果中某個或多個檢查項顯示
Failed狀態,表示GPU診斷出現異常(例如Double Bit Error Check)。
診斷項和診斷結果說明
通過雲助手外掛程式一鍵診斷GPU狀態,具體診斷項說明如下:
診斷項 | 診斷說明 | 異常處理措施 |
Double Bit Error Check | 檢測GPU的Double Bit Error情況 | 根據錯誤數不同會提示使用者重啟執行個體。 |
Info Rom Corrupted Check | 檢測GPU的infoROM韌體資訊 | 會向使用者發送營運通知。 |
eRDMA Incorrect Check | 檢測GPU的eRDMA網卡狀態 | 會向使用者發送營運通知。 |
Kernel Upgrade Check | 檢測由於Kernel升級導致驅動異常情況 | 需要使用者卸載驅動後重新安裝驅動。 |
Fabricmanager running Check | 檢測Fabricmanager組件運行狀態 | 需要使用者安裝或啟動Fabricmanager元件服務。 |
Power Cable Error Check | 檢測GPU電源線及供電狀態 | 會向使用者發送營運通知。 |
GPU Device Lost Check | 檢測GPU丟卡情況 | 會向使用者發送營運通知。 |
GPU Driver Install Check | 檢測GPU驅動的安裝狀態 | 需要使用者安裝驅動。 |
GPU Xid Error Check | 檢測GPU Xid error異常情況 | 根據不同的XID錯誤提示使用者重啟執行個體。 |