全部產品
Search
文件中心

Alibaba Cloud Linux:Qwen鏡像ReleaseNotes

更新時間:Jun 23, 2025

Qwen系列大模型鏡像是AC2推出的開箱即用容器部署服務。容器鏡像包含了運行Qwen系列大模型所需的所有依賴,包括Python運行環境、深度學習架構以及依賴庫。確保Qwen系列大模型能夠高效、穩定地在不同環境下部署和服務。本系列鏡像不包含大模型權重檔案,需使用者自行下載,或使用鏡像提供的下載能力下載。Qwen系列大模型鏡像通過Web Demo的形式對外提供服務,也可以通過將本系列鏡像作為基礎鏡像,定製不同形式的服務提供者式。

鏡像列表

Qwen系列大模型鏡像分為「一鍵部署鏡像」和「運行環境鏡像」,具體區別如下:

  • 運行環境鏡像:僅包含運行該模型所需要的所有軟體環境,包括系統組件以及Python依賴。

  • 一鍵部署鏡像:包含運行環境、啟動指令碼以及Web Demo指令碼。

鏡像類型

支援大模型

CPU/GPU

鏡像地址

運行環境鏡像

Qwen 1.8-72B(支援量化模型)

GPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

Qwen 1.8-72B

CPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-alinux3.2304

一鍵部署鏡像

Qwen-Chat-7B

GPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

CPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-alinux3.2304

鏡像內容

  • qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

    • gradio: 3.41.0

    • optimum: 1.19.2

    • auto-gptq: 0.7.1

    • flash-attn: 2.5.8

    • tiktoken: 0.5.2

    • accelerate: 0.26.1

    • transformers: 4.36.2

    • PyTorch: 2.2.0.1

    • CUDA:12.1.1

    • Python: 3.10.13

    • BaseOS: Alinux 3.2304

  • qwen:runtime-pytorch2.2.0.1-alinux3.2304

    • gradio: 3.41.0

    • tiktoken: 0.5.2

    • accelerate: 0.26.1

    • transformers: 4.36.2

    • PyTorch: 2.2.0.1

    • Python: 3.10.13

    • BaseOS: Alinux 3.2304

  • qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

    組件繼承自qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

  • qwen:7b-pytorch2.2.0.1-alinux3.2304

    組件繼承自qwen:runtime-pytorch2.2.0.1-alinux3.2304

鏡像運行要求

  • qwen:runtime-pytorch2.2.0.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-alinux3.2304為CPU鏡像,對驅動無要求。

  • qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304為GPU鏡像,包含CUDA 12.1.1,需要nvidia-driver >= 530,相容nvidia-driver R470、R525。

GPU相容性說明

GPU鏡像中整合了FlashAttention-2,該組件對GPU架構有相容性要求。下表整理了FlashAttention-2對不同GPU架構的支援情況,以及對應的阿里雲在售異構執行個體的GPU型號。

GPU架構

阿里雲在售

FlashAttention-2

Ampere

A10

支援

Turing

T4

不支援

Volta

V100

Pascal

P100、P4

在不支援的GPU架構上運行Qwen大模型,可能會出現「FlashAttention only supports Ampere GPUs or newer」的錯誤提示。可以在運行容器中通過以下命令移除FlashAttention-2組件,防止Qwen大模型在不支援的GPU裝置上使用FlashAttention-2加速。

pip uninstall -y flash-attn

重要特性

  • GPU鏡像預裝optimum、auto-gptq、flash-attn,支援量化模型。

  • 部署鏡像提供一鍵部署能力,內建運行指令碼(指令碼來源)。

更新記錄

  • 2024.06

    發布qwen鏡像運行環境鏡像

  • 2024.07

    發布qwen鏡像一鍵部署鏡像