GPU ECC (Error Correction Code) 是一種記憶體錯誤偵測和糾正技術。ECC模式可以提高GPU計算的可靠性,但會佔用部分GPU顯存容量。在某些對GPU顯存容量要求較高的情境下,可禁用ECC以獲得更多可用顯存。
注意事項
禁用GPU ECC功能需要特定帳號許可權,請提交工單申請開通相關許可權。
需通過註解
alibabacloud.com/gpu-ecc-mode-disabled禁用GPU ECC模式。如不設定此註解或設定為false,GPU將預設啟用ECC模式。關閉GPU ECC能力後,因ECC關閉造成的GPU任務中斷和資料丟失,阿里雲不負責任務和資料恢複。
支援禁用ECC模式的GPU型號列表
ACS支援多種GPU型號,目前支援禁用ECC模式的GPU型號以及使用約束如下。
卡型 | 計算類型(compute-class) |
G49E | gpu |
使用方式
在Pod的Annotations中添加註解alibabacloud.com/gpu-ecc-mode-disabled: "true"即可禁用GPU ECC模式。以下樣本將在ACS叢集中部署一個禁用GPU ECC模式的Pod。
使用以下YAML內容建立
pod-disable-gpu-ecc.yaml檔案,然後執行kubectl apply -f pod-disable-gpu-ecc.yaml命令部署Pod。apiVersion: v1 kind: Pod metadata: labels: alibabacloud.com/compute-class: gpu alibabacloud.com/compute-qos: default # 指定GPU型號為G49E,請按實際支援情況填寫 alibabacloud.com/gpu-model-series: G49E annotations: # 禁用ECC模式 alibabacloud.com/gpu-ecc-mode-disabled: "true" name: pod-disable-gpu-ecc namespace: default spec: containers: - command: - sleep - '3600000000' # 樣本鏡像中已安裝GPU驅動,請將cn-hangzhou替換為實際地區 image: acs-registry-vpc.cn-hangzhou.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless imagePullPolicy: IfNotPresent name: test resources: limits: cpu: '8' ephemeral-storage: 30Gi memory: 64Gi nvidia.com/gpu: '1' requests: cpu: '8' ephemeral-storage: 30Gi memory: 64Gi nvidia.com/gpu: '1'等待應用Pod狀態變為Running。
kubectl get pod | grep pod-disable-gpu-ecc預期輸出:
pod-disable-gpu-ecc 1/1 Running 0 2m16s通過終端進入Pod,查看GPU ECC是否成功禁用。
nvidia-smi -q | grep "ECC Mode" -A 2預期輸出:
ECC Mode Current : Disabled Pending : Disabled其中
Disabled表示GPU ECC模式已經成功禁用。