全部產品
Search
文件中心

Container Compute Service:使用DeepGPU加速Wan2.1視頻產生

更新時間:Aug 12, 2025

在使用Container Compute Service (ACS)算力時,您無需深入瞭解底層硬體,也無需涉及GPU節點管理和配置即可開箱即用。ACS部署簡單、支援隨用隨付,非常適合用於LLM推理任務,可以有效降低推理成本。本文介紹如何使用ACS GPU算力通過deepgpu-comfyui外掛程式加速Wan2.1視頻產生。

背景資訊

ComfyUI

ComfyUI是一個基於 節點(Node-based) 的圖形化使用者介面(GUI),專為運行和定製 Stable Diffusion(一種主流的文本產生映像模型)而設計。它通過可視化的流程圖(Workflow)方式,讓使用者以拖拽節點的方式構建複雜的映像產生流程,而無需直接編寫代碼。

Wanx模型

通義萬相(Tongyi Wanxiang)是由阿里巴巴通義實驗室研發的AI繪畫與文生圖(AIGC)大模型,屬於“通義千問”大模型系列中的視覺產生分支。它是全球首個支援中文提示詞的AI繪畫模型,並具備多模態能力,能夠根據文字描述、手繪草圖、映像風格遷移等產生高品質的藝術作品。

前提條件

  • 首次使用阿里雲Container Compute Service (ACS)時,需要為服務帳號授予系統預設角色。若且唯若該角色被正確授予後,ACS才能正常地調用相關服務(ECS、OSS、NAS、CPFS、SLB等),建立叢集以及儲存日誌等。具體操作,請參見首次使用容器計算服務

  • 支援的GPU卡型:L20(GN8IS)、G49E。

操作步驟

步驟一:準備模型資料

建議您建立NAS或OSS儲存捲來持久化儲存模型檔案。本文以NAS儲存卷為例,請在NAS掛載的目錄中執行以下操作。

建立持久化儲存卷的具體操作,請參見建立NAS檔案系統作為儲存卷使用OSS靜態儲存卷
  1. 執行以下命令下載ComfyUI。

    請確認作業環境已安裝git
    git clone https://github.com/comfyanonymous/ComfyUI.git
  2. 執行以下命令,分別下載以下三個模型檔案到ComfyUI對應的目錄下。關於模型的詳細資料,請參見Wan_2.1_ComfyUI_repackaged專案

    建議提升公網頻寬峰值,預計下載總用時約30分鐘。
    1. wan2.1_t2v_14B_fp16.safetensors檔案

      cd ComfyUI/models/diffusion_models
      wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/diffusion_models/wan2.1_t2v_14B_fp16.safetensors 
    2. wan_2.1_vae.safetensors檔案

      cd ComfyUI/models/vae
      wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/vae/wan_2.1_vae.safetensors
    3. umt5_xxl_fp8_e4m3fn_scaled.safetensors檔案

      cd ComfyUI/models/text_encoders
      wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. 下載並解壓ComfyUI-deepgpu。

    cd ComfyUI/custom_nodes
    wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/nodes/20250513/ComfyUI-deepgpu.tar.gz
    tar zxf ComfyUI-deepgpu.tar.gz

步驟二:部署ComfyUI服務

  1. 登入容器計算服務控制台,在左側導覽列選擇叢集列表。然後單擊目的地組群名稱,在左側導覽列選擇工作負載 > 無狀態,然後單擊右上方的使用YAML建立資源

  2. 以掛載NAS儲存卷為例,使用以下YAML作為模版,然後點擊建立

    請按實際建立的PVC修改persistentVolumeClaim.claimName配置。
    本樣本使用的是cn-beijing地區的inference-nv-pytorch 25.07,以減少鏡像拉取的時間。若您希望使用其他地區的內網鏡像,可以根據使用方式手動調整YAML中的鏡像地址。
    本樣本使用的測試容器鏡像已內建deepgpu-torch、deepgpu-comfyui外掛程式,如果您需要在其他容器環境內使用,請諮詢PDSA擷取外掛程式安裝包。
    apiVersion: apps/v1
    kind: Deployment
    metadata:
      labels:
        app: wanx-deployment
      name: wanx-deployment-test
      namespace: default
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: wanx-deployment
      template:
        metadata:
          labels:
            alibabacloud.com/compute-class: gpu
            alibabacloud.com/compute-qos: default
            alibabacloud.com/gpu-model-series: L20 #支援的GPU卡型:L20(GN8IS)、G49E
            app: wanx-deployment
        spec:
          containers:
          - command:
            - sh
            - -c
            - DEEPGPU_PUB_LS=true python3 /mnt/ComfyUI/main.py --listen 0.0.0.0 --port 7860
            image: acs-registry-vpc.cn-beijing.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless
            imagePullPolicy: Always
            name: main
            resources:
              limits:
                nvidia.com/gpu: "1"
                cpu: "16"
                memory: 64Gi
              requests:
                nvidia.com/gpu: "1"
                cpu: "16"
                memory: 64Gi
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /dev/shm
              name: cache-volume
            - mountPath: /mnt #/mnt為NAS儲存聲明影射到pod內的路徑
              name: data
          dnsPolicy: ClusterFirst
          restartPolicy: Always
          schedulerName: default-scheduler
          securityContext: {}
          terminationGracePeriodSeconds: 30
          volumes:
          - emptyDir:
              medium: Memory
              sizeLimit: 500G
            name: cache-volume
          - name: data
            persistentVolumeClaim:
              claimName: wanx-nas #wanx-nas為通過NAS建立的儲存聲明
    
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: wanx-test
    spec:
      type: LoadBalancer
      ports:
        - port: 7860
          protocol: TCP
          targetPort: 7860
      selector:
        app: wanx-deployment
  3. 在彈窗中點擊查看,進入工作負載基本資料頁面。點擊下方日誌頁簽,有如下輸出,說明服務啟動成功。

    image

步驟三:外掛程式用法介紹

  1. 點擊訪問方式頁簽,擷取服務的外部端點(如8.xxx.xxx.114:7860)。

    image

  2. 通過瀏覽器訪問ComfyUI地址http://8.xxx.xxx.114:7860/。在ComfyUI介面點擊右鍵,然後點擊添加節點可以查看外掛程式中包含DeepGPU類型的節點。

    首次訪問載入用時約5分鐘。

    image

    ApplyDeepyTorch節點介紹

    ApplyDeepyTorch節點用於最佳化模型推理效能,一般是插入到整個workflow中最後一個處理模型節點之後,例如插入到Load Diffusion Model、Load Checkpoint、LoraLoaderModelOnly等節點之後。ApplyDeepyTorch節點類型如下圖所示。

    image.png

步驟四:測試樣本工作流程

  1. 通過瀏覽器下載wan2.1 DeepyTorch加速工作流程到本地。

    1. 使用圖片產生視頻工作流程。

      https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_image_to_video_wan_1.3b_deepytorch.json
    2. 使用文本產生視頻工作流程。

      https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan_deepytorch.json
  2. 以下步驟以加速使用文本產生視頻為例。在ComfyUI點擊工作流程 > 開啟,然後選擇已下載的workflow_text_to_video_wan_deepytorch.json檔案。

  3. 開啟工作流程檔案之後,需要將Apply DeepyTorch to diffusion model節點的enable設定為true來開啟加速,然後點擊運行,等待視頻產生。

    DeepyTorch加速工作流程在Load Diffusion Model節點後插入ApplyDeepyTorch節點。

    image.png

  4. 點擊左側隊列按鈕,可以查看視頻產生時間並預覽視頻。

    第一次測試產生時間會稍長,可以重複運行2~3次擷取最佳效能。

    image

  5. (可選)如果要測試未加速情境,需要重啟ComfyUI服務,並選擇如下工作流程產生視頻。

    https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan.json