全部產品
Search
文件中心

Elastic GPU Service:通過雲助手外掛程式一鍵診斷GPU

更新時間:Jul 20, 2024

通過雲助手外掛程式可以對當前執行個體的GPU卡狀態或驅動狀態等方面進行全方位診斷,協助您快速檢測使用GPU時遇到的一些常見問題(例如GPU卡異常、驅動異常等),一旦診斷出異常情況,可以自動發起營運動作,例如發送通知給使用者等。

操作步驟

說明

本文適用於診斷Linux作業系統GPU執行個體,該GPU執行個體在建立時已預設預裝了雲助手外掛程式,關於雲助手的詳細資料,請參見雲助手概述

  1. 登入ECS管理主控台

  2. 在左側導覽列,選擇營運與監控 > 雲助手

  3. 在頁面左側頂部,選擇目標GPU執行個體所在地區。

  4. ECS執行個體頁簽下的執行個體列表,選擇目標執行個體,單擊對應操作欄下的執行命令

  5. 建立執行命令面板的命令資訊地區,完成參數配置。

    主要參數配置項如下所示,其他參數保持預設。更多資訊,請參見建立命令

    重要

    參數取值必須按照下文提供的取值來設定,否則可能會導致雲助手執行失敗。

    雲助手.jpg

    命令類型:選擇Shell

    ②命令內容:粘貼如下命令。有關Shell命令的樣本,請參見查看執行個體系統配置

    if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
    then
        acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
    fi
    acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck

    逾時時間:命令執行逾時時間。當執行命令的任務逾時後,雲助手將強制終止任務進程。取值:180

    說明

    逾時時間僅支援設定為正整數,單位為秒,取值範圍:10~86400秒(24小時)。

  6. 單擊執行,通過雲助手命令診斷GPU執行個體健康狀態。

    • 執行結果中各檢查項均顯示OK狀態,表示GPU診斷無異常。

      GPU State.jpg

    • 執行結果中某個或多個檢查項顯示Failed狀態,表示GPU診斷出現異常(例如Double Bit Error Check)。

      GPU State-en.jpg

診斷項和診斷結果說明

通過雲助手外掛程式一鍵診斷GPU狀態,具體診斷項說明如下:

診斷項

診斷說明

異常處理措施

Double Bit Error Check

檢測GPU的Double Bit Error情況

根據錯誤數不同會提示使用者重啟執行個體。

Info Rom Corrupted Check

檢測GPU的infoROM韌體資訊

會向使用者發送營運通知。

eRDMA Incorrect Check

檢測GPU的eRDMA網卡狀態

會向使用者發送營運通知。

Kernel Upgrade Check

檢測由於Kernel升級導致驅動異常情況

需要使用者卸載驅動後重新安裝驅動。

Fabricmanager running Check

檢測Fabricmanager組件運行狀態

需要使用者安裝或啟動Fabricmanager元件服務。

Power Cable Error Check

檢測GPU電源線及供電狀態

會向使用者發送營運通知。

GPU Device Lost Check

檢測GPU丟卡情況

會向使用者發送營運通知。

GPU Driver Install Check

檢測GPU驅動的安裝狀態

需要使用者安裝驅動。

GPU Xid Error Check

檢測GPU Xid error異常情況

根據不同的XID錯誤提示使用者重啟執行個體。