Alibaba Cloud Linux 3 預裝NVIDIA GPU驅動和 CUDA專為AI開發與深度學習情境最佳化的高效能基礎鏡像,預置了主流版本的NVIDIA GPU驅動、CUDA、Docker引擎及NVIDIA Container Toolkit 等,開箱即用。您可快速部署GPU容器化環境,無縫運行大模型訓練、推理任務,顯著簡化底層依賴配置,提升AI應用開發與部署效率。
預配置軟體資訊
該公用鏡像預置驅動及軟體資訊如下:
核心版本、驅動及軟體資訊 | Alibaba Cloud Linux 3 預裝NVIDIA GPU驅動鏡像 | Alibaba Cloud Linux 3.2104 LTS 64位 預裝NVIDIA open-source GPU驅動和 CUDA |
作業系統核心版本 | 5.10.134-19.2.al8.x86_64 | 5.10.134-19.2.al8.x86_64 |
Nvidia GPU 驅動版本 | 570.195.03 | 580.126.09(開源核心模組類型) |
CUDA版本 | 12.8 | 12.8 |
cuDNN版本 | 9.8.0.87 | 9.10.0.56 |
NCCL | v2.27.7-1 | v2.29.3-1 |
OpenMPI | 4.1.3 | 4.1.3 |
Docker | 26.1.3 | 26.1.3 |
NVIDIA Container Toolkit | 1.17.8 | 1.17.8 |
OFED和eRDMA | 支援 | 支援 |
效能調優軟體keentune 預設未開啟。 | 支援 | 支援 |
Python 3 | 3.6.8 | 3.6.8 |
Alibaba Cloud Linux 3 預裝NVIDIA GPU驅動鏡像
支援的規格類型系列
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e
ebmgn7ix、ebmgn7ex
gn8is、ebmgn8is、gn8v、ebmgn8v
系統內容變數配置
/etc/profile.d/nccl.sh
export NCCL_HOME=/usr/local/nccl export LD_LIBRARY_PATH=${NCCL_HOME}/lib:$LD_LIBRARY_PATH/etc/profile.d/openmpi.sh
export MPI_HOME=/usr/local/openmpi export LD_LIBRARY_PATH=${MPI_HOME}/lib:$LD_LIBRARY_PATH export PATH=${MPI_HOME}/bin:$PATH/etc/profile.d/cuda.sh
export PATH=/usr/local/cuda/bin:$PATH export CUDA_HOME=/usr/local/cuda export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
Alibaba Cloud Linux 3.2104 LTS 64位 預裝NVIDIA open-source GPU驅動和 CUDA
支援的規格列表
ecs.ebmgn9g、ecs.ebmgn9gc、ecs.ebmgn9ge、ecs.ebmgn9t、ecs.gn9g、ecs.gn9t、ecs.gn9ge
常見問題
如何為鏡像開啟keentune調優工具?
可通過如下步驟開啟,並在作業系統重啟後生效。
systemctl stop tuned
systemctl disable tuned
systemctl start keentune-target
systemctl enable keentune-target
systemctl enable keentuned
systemctl start keentuned
keentune profile set ai_common.profile若想關閉keentune,執行keentune profile rollback即可,重啟作業系統後生效。
在ACK叢集中使用Alibaba Cloud Linux 3 預裝NVIDIA GPU驅動鏡像時需要注意什嗎?
請參考Container ServiceKubernetes版文檔中如何基於建立好的ECS執行個體建立自訂鏡像,並使用該鏡像建立節點和使用須知及高危風險操作說明。