為節點安裝NVIDIA驅動時,請確保驅動版本包含在ACK支援的驅動版本列表中。本文介紹ACK支援的NVIDIA驅動版本列表。
CUDA介紹
CUDA是顯卡廠商NVIDIA在2007年推出的並行計算平台和編程模型。CUDA利用圖形處理器GPU(Graphics Processing Unit),可顯著提高計算效能。
下圖展示CUDA的架構體系。CUDA軟體堆棧中的驅動層API和運行時層API的區別如下。
驅動層API(Driver API):功能較完整,但是使用複雜。
運行時API(CUDA Runtime API):封裝了部分驅動的API,將某些驅動初始化操作隱藏,使用方便。
CUDA的Driver API由NVIDIA Driver包提供,而CUDA Library和CUDA Runtime由CUDA Toolkit包提供。

驅動和叢集版本相容性
ACK各叢集版本支援的NVIDIA GPU驅動版本列表如下。
ACK靈駿叢集及ACK託管叢集Pro版的靈駿節點已在OS鏡像中內建GPU驅動,不支援通過節點標籤安裝指定GPU驅動版本。 ACK Edge叢集的邊緣節點池不支援通過節點標籤安裝指定GPU驅動版本。
目前,510及其以上版本的驅動會偶發性出現XID 119或XID 120錯誤。如遇相關問題,請參見使用GPU時出現XID 119/XID 120錯誤導致GPU掉卡怎麼辦?進行排查。
目前,550驅動版本針對某些應用頻繁出現XID 119/120/31以及導致核心kernel panic等問題做了修複,建議您將存量GPU節點升級到550驅動版本。
ACK會不定期更新不同叢集版本所使用的預設驅動版本,這可能會導致您的叢集中新擴容GPU節點使用的驅動版本有所變化,如果需要避免這種情況,建議您給叢集節點池指定驅動版本,請參見通過指定版本號碼自訂節點GPU驅動版本進行節點池標籤的配置。
建立節點池過程中,如果您指定的驅動版本不存在於驅動和作業系統核心版本相容性,ACK將自動安裝預設驅動版本。若您指定了與最新作業系統不相容驅動版本,可能存在節點添加失敗的情況,需選擇目前支援的最新驅動版本。
升級OS核心版本後,可能會導致節點上安裝的GPU驅動不可用。可通過將節點移除節點池再添加進節點池(自動添加已有節點)方式或手動升級GPU節點驅動。
在570系列及以上驅動使用監控組件時,需滿足組件版本ack-arms-prometheus≥1.1.33、ack-gpu-exporter≥2.3.0。
如果您的節點池通過指定版本號碼自訂節點GPU驅動版本或通過OSS URL自訂節點GPU驅動,在進行作業系統鏡像升級時,可能存在作業系統與驅動版本不相容情況。請參見ACK支援的NVIDIA驅動版本列表選擇最新驅動。
叢集版本 | 預設驅動版本 | 是否支援自訂驅動版本能力 | 支援的NVIDIA驅動版本 |
1.28及以上 | 535.161.07 570.169(針對ecs.gn9t、ecs.ebmgn9t機型) | 是 |
下列驅動版本已與最新作業系統不相容。
|
1.26 | 是 | ||
1.24 | 是 | ||
1.22 | 是 | ||
1.20 | 是 |
| |
1.18.8 | 418.181.07 | 是 | |
1.16.9 | 418.181.07 | 是 | |
1.16.6 | 418.87.01 | 否 | |
1.14.8 | 418.181.07 | 是 |
驅動和GPU卡型/機型相容性
驅動和作業系統核心版本相容性
涉及的核心版本與作業系統鏡像ID的關係,請參考核心版本與鏡像ID映射表。
驅動版本 | Alibaba Cloud Linux 2 | Alibaba Cloud Linux 3 | CentOS | Ubuntu |
570.169 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 不支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
570.133.20 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 不支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
550.163.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
550.144.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
550.90.07 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
550.54.15 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
550.54.14 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
535.247.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
535.230.02 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
535.161.07 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
535.129.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
535.98 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
535.54.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
525.147.05 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
525.105.17 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
515.105.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
515.86.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
510.108.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
510.54 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
510.47.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
470.256.02 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,∞) |
470.161.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支援範圍: [5.10.134-18.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
470.103.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
470.82.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
470.57.02 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
460.106.00 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 支援範圍: [5.15.0-40-generic,5.15.0-101-generic] 不支援範圍: [5.15.0-106-generic,∞) |
460.91.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
460.73.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
460.32.03 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
450.119.04 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
450.102.04 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 支援範圍: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支援範圍: [5.10.134-15.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
450.80.02 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
440.33.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
418.181.07 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
418.113 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
418.87.01 | 支援範圍: [4.19.81-17.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
410.93 | 支援範圍: [4.19.81-17.1.al7.x86_64,4.19.91-18.al7.x86_64] 不支援範圍: [4.19.91-19.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,3.10.0-957.21.3.el7.x86_64] 不支援範圍: [3.10.0-1062.9.1.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
410.79 | 支援範圍: [4.19.81-17.1.al7.x86_64,4.19.91-18.al7.x86_64] 不支援範圍: [4.19.91-19.1.al7.x86_64,∞) | 不支援範圍: [5.10.23-5.al8.x86_64,∞) | 支援範圍: [3.10.0-862.14.4.el7.x86_64,3.10.0-957.21.3.el7.x86_64] 不支援範圍: [3.10.0-1062.9.1.el7.x86_64,∞) | 不支援範圍: [5.15.0-40-generic,∞) |
驅動和CUDA Toolkit相容性
您可以根據應用所使用的CUDA Toolkit版本,對照CUDA Toolkit與NVIDIA驅動的版本相容性列表,選擇合適的NVIDIA驅動版本。更多資訊,請參見cuda-toolkit-release-notes。
擷取驅動層API版本
如果一個節點安裝了NVIDIA驅動包,則可以執行nvidia-smi查看驅動版本和CUDA驅動API版本。如下所示,該節點安裝的驅動版本為550.144.03,驅動API版本為12.6,表示該驅動最高支援CUDA運行時API版本為12.6。
Mon Mar 24 08:51:55 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.144.03 Driver Version: 550.144.03 CUDA Version: 12.6 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla P4 On | 00000000:00:07.0 Off | 0 |
| N/A 33C P8 7W / 75W | 0MiB / 7680MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+擷取運行時API版本
容器鏡像中安裝CUDA Toolkit時,使用NVIDIA提供的CUDA基礎鏡像。這些基礎鏡像已經安裝了CUDA Toolkit。您可以基於基礎鏡像構建應用程式容器鏡像。您也可以根據不同的CUDA Toolkit版本選擇不同的CUDA基礎鏡像。
在容器中使用GPU情境下,應用程式使用的CUDA運行時API版本與該應用的Docker鏡像使用的CUDA基礎鏡像版本一致。例如,您的應用的Docker鏡像基於CUDA基礎鏡像NVIDIA/CUDA:12.2.0-base-Ubuntu20.04構建,那麼應用使用的CUDA運行時API版本為12.2.0。