全部產品
Search
文件中心

Container Compute Service:禁用GPU ECC模式

更新時間:Jan 17, 2026

GPU ECC (Error Correction Code) 是一種記憶體錯誤偵測和糾正技術。ECC模式可以提高GPU計算的可靠性,但會佔用部分GPU顯存容量。在某些對GPU顯存容量要求較高的情境下,可禁用ECC以獲得更多可用顯存。

注意事項

  1. 禁用GPU ECC功能需要特定帳號許可權,請提交工單申請開通相關許可權。

  2. 需通過註解alibabacloud.com/gpu-ecc-mode-disabled禁用GPU ECC模式。如不設定此註解或設定為false,GPU將預設啟用ECC模式。

  3. 關閉GPU ECC能力後,因ECC關閉造成的GPU任務中斷和資料丟失,阿里雲不負責任務和資料恢複。

支援禁用ECC模式的GPU型號列表

ACS支援多種GPU型號,目前支援禁用ECC模式的GPU型號以及使用約束如下。

卡型

計算類型(compute-class)

G49E

gpu

使用方式

在Pod的Annotations中添加註解alibabacloud.com/gpu-ecc-mode-disabled: "true"即可禁用GPU ECC模式。以下樣本將在ACS叢集中部署一個禁用GPU ECC模式的Pod。

  1. 使用以下YAML內容建立pod-disable-gpu-ecc.yaml檔案,然後執行kubectl apply -f pod-disable-gpu-ecc.yaml命令部署Pod。

    apiVersion: v1
    kind: Pod
    metadata:
      labels:
        alibabacloud.com/compute-class: gpu    
        alibabacloud.com/compute-qos: default
        # 指定GPU型號為G49E,請按實際支援情況填寫
        alibabacloud.com/gpu-model-series: G49E
      annotations:
        # 禁用ECC模式
        alibabacloud.com/gpu-ecc-mode-disabled: "true"
      name: pod-disable-gpu-ecc
      namespace: default
    spec:
      containers:
        - command:
            - sleep
            - '3600000000'
          # 樣本鏡像中已安裝GPU驅動,請將cn-hangzhou替換為實際地區
          image: acs-registry-vpc.cn-hangzhou.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless
          imagePullPolicy: IfNotPresent
          name: test
          resources:
            limits:
              cpu: '8'
              ephemeral-storage: 30Gi
              memory: 64Gi
              nvidia.com/gpu: '1'
            requests:
              cpu: '8'
              ephemeral-storage: 30Gi
              memory: 64Gi
              nvidia.com/gpu: '1'
  2. 等待應用Pod狀態變為Running。

    kubectl get pod | grep pod-disable-gpu-ecc

    預期輸出:

    pod-disable-gpu-ecc   1/1     Running   0          2m16s
  3. 通過終端進入Pod,查看GPU ECC是否成功禁用。

    nvidia-smi -q | grep "ECC Mode" -A 2

    預期輸出:

        ECC Mode
            Current                           : Disabled
            Pending                           : Disabled

    其中Disabled表示GPU ECC模式已經成功禁用。