建立GPU執行個體時,選擇鏡像後並同時選擇了安裝GPU驅動選項,則建立執行個體後會自動安裝GPU(Tesla)驅動。如果因某種原因(例如當前使用的作業系統不能滿足業務需求),您需要更換該GPU執行個體的作業系統,則同時也需要取消自動安裝Tesla驅動功能,單獨手動安裝適配新作業系統的Tesla驅動,確保正常使用GPU執行個體的高效能特性。
操作步驟
-
遠端連線GPU執行個體。
具體操作,請參見使用Workbench登入Linux執行個體。
-
執行
nvidia-smi命令,查看Tesla驅動版本。[ecs-uxxxx@taZ ~]$ nvidia-smi Tue Aug 6 17:36:22 2024 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 | |----------------------------------------------+------------------------+------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 Tesla T4 On | 00000000:00:07.0 Off | 0 | | N/A 28C P8 9W / 70W | 1MiB / 15360MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+ -
停止GPU執行個體。
停機GPU執行個體時,建議您選擇 停止模式 為 普通停機模式 ,避免更換執行個體的作業系統時啟動失敗。具體操作,請參見停止執行個體。
-
在執行個體列表中,找到已停止的GPU執行個體,在對應操作列,選擇。
-
在使用者資料地區,刪除使用者資料內容並單擊確定。
-
更換GPU執行個體的作業系統。
更換作業系統的本質是更換系統硬碟,您可以通過更換執行個體的鏡像來更換作業系統。具體操作,請參見更換作業系統(更換系統硬碟)。
-
在執行個體列表中,單擊已更換作業系統的執行個體ID,在執行個體詳情頁簽下確認執行個體的作業系統和鏡像資訊已更換。
-
重新遠端連線GPU執行個體,並執行
nvidia-smi命令,確認已取消自動安裝Tesla驅動功能。[ecs-user@xxx ~]$ nvidia-smi -bash: nvidia-smi: command not found
後續步驟
GPU執行個體更換作業系統並取消自動安裝Tesla驅動功能後,您需要根據實際業務情境手動安裝與該GPU執行個體相匹配的驅動,才能正常使用GPU執行個體的高效能特性。具體操作,請參見在GPU計算型執行個體中手動安裝Tesla驅動(Linux)。