適用於ACK部署的Qwen AI模型鏡像 - Alibaba Cloud Linux

Qwen系列大模型鏡像是AC2推出的開箱即用容器部署服務。容器鏡像包含了運行Qwen系列大模型所需的所有依賴，包括Python運行環境、深度學習架構以及依賴庫。確保Qwen系列大模型能夠高效、穩定地在不同環境下部署和服務。本系列鏡像不包含大模型權重檔案，需使用者自行下載，或使用鏡像提供的下載能力下載。Qwen系列大模型鏡像通過Web Demo的形式對外提供服務，也可以通過將本系列鏡像作為基礎鏡像，定製不同形式的服務提供者式。

鏡像列表

Qwen系列大模型鏡像分為「一鍵部署鏡像」和「運行環境鏡像」，具體區別如下：

運行環境鏡像：僅包含運行該模型所需要的所有軟體環境，包括系統組件以及Python依賴。
一鍵部署鏡像：包含運行環境、啟動指令碼以及Web Demo指令碼。

鏡像類型	支援大模型	CPU/GPU	鏡像地址
運行環境鏡像	Qwen 1.8-72B（支援量化模型）	GPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
運行環境鏡像	Qwen 1.8-72B	CPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-alinux3.2304
一鍵部署鏡像	Qwen-Chat-7B	GPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
一鍵部署鏡像	Qwen-Chat-7B	CPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-alinux3.2304

鏡像內容

qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
- gradio: 3.41.0
- optimum: 1.19.2
- auto-gptq: 0.7.1
- flash-attn: 2.5.8
- tiktoken: 0.5.2
- accelerate: 0.26.1
- transformers: 4.36.2
- PyTorch: 2.2.0.1
- CUDA：12.1.1
- Python: 3.10.13
- BaseOS: Alinux 3.2304
qwen:runtime-pytorch2.2.0.1-alinux3.2304
- gradio: 3.41.0
- tiktoken: 0.5.2
- accelerate: 0.26.1
- transformers: 4.36.2
- PyTorch: 2.2.0.1
- Python: 3.10.13
- BaseOS: Alinux 3.2304
qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
組件繼承自qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
qwen:7b-pytorch2.2.0.1-alinux3.2304
組件繼承自qwen:runtime-pytorch2.2.0.1-alinux3.2304

鏡像運行要求

qwen:runtime-pytorch2.2.0.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-alinux3.2304為CPU鏡像，對驅動無要求。
qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304為GPU鏡像，包含CUDA 12.1.1，需要nvidia-driver >= 530，相容nvidia-driver R470、R525。

GPU相容性說明

GPU鏡像中整合了FlashAttention-2，該組件對GPU架構有相容性要求。下表整理了FlashAttention-2對不同GPU架構的支援情況，以及對應的阿里雲在售異構執行個體的GPU型號。

GPU架構	阿里雲在售	FlashAttention-2
Ampere	A10	支援
Turing	T4	不支援
Volta	V100
Pascal	P100、P4

在不支援的GPU架構上運行Qwen大模型，可能會出現「FlashAttention only supports Ampere GPUs or newer」的錯誤提示。可以在運行容器中通過以下命令移除FlashAttention-2組件，防止Qwen大模型在不支援的GPU裝置上使用FlashAttention-2加速。

pip uninstall -y flash-attn

重要特性

GPU鏡像預裝optimum、auto-gptq、flash-attn，支援量化模型。
部署鏡像提供一鍵部署能力，內建運行指令碼（指令碼來源）。

更新記錄

2024.06
發布qwen鏡像運行環境鏡像
2024.07
發布qwen鏡像一鍵部署鏡像