全部產品
Search
文件中心

Elastic GPU Service:安裝並使用ComfyUI+DeepGPU

更新時間:Apr 22, 2026

對於需要文生圖的業務情境,使用ComfyUI+DeepGPU可以加速FLUX模型或SD模型的推理速度。例如,對於FLUX模型來說,相比未配置ComfyUI DeepGPU加速節點的情況,在GPU執行個體上配置ComfyUI+DeepGPU加速節點後,其文生圖加速效能提升約30%。本文為您介紹如何安裝並使用ComfyUI+DeepGPU來加速文生圖。

加速效能對比

說明

DeepGPU推理加速組件由阿里雲推出,旨在為FLUX.1、SD或SDXL模型提供顯著的文生圖推理加速效能。

與未配置ComfyUI+DeepGPU加速節點的情境相比,在GPU執行個體上(推薦單卡gn8is執行個體配置ComfyUI+DeepGPU加速節點後,針對bf16和fp8兩種精度的flux1-dev模型來說,其加速效能提升約30%。部分模型的文生圖加速效能對比如下:

模型權重精度

映像解析度(WxH)

耗時(未啟用deepgpu加速功能)

耗時(啟用deepgpu加速功能)

速度提升率

default(bf16)

1024 x 1024

20.83s

16.62s

25.3%

default(bf16)

1280 x 720

19.02s

15.07s

26.2%

default(bf16)

680 x 1024

14.21s

11.21s

26.8%

default(bf16)

576 x 768

8.81s

7.27s

21.2%

fp8_e4m3_fast

1024 x 1024

15.16s

11.15s

36.0%

fp8_e4m3_fast

1280 x 720

13.66s

9.97s

37.0%

fp8_e4m3_fast

680 x 1024

9.93s

7.51s

32.2%

fp8_e4m3_fast

576 x 768

6.07s

4.88s

24.4%

前提條件

  • 已建立GPU執行個體,且GPU執行個體需滿足以下要求:

    • 作業系統僅為Ubuntu 20.04和Ubuntu 22.04。

    • 已安裝NVIDIA Driver、CUDA且滿足相應的版本要求。

      說明

      建立GPU執行個體時,建議在選擇鏡像後,同時選中安裝GPU驅動選項,並依次選擇的CUDA版本、Driver版本以及cuDNN版本。

    • 執行個體已指派固定公網IP地址或綁定Elastic IP Address(EIP)。如您不清楚如何開通公網,請參見開通公網

  • 已配置安全性群組規則。

    遠端連線執行個體所需的22連接埠在建立安全性群組時預設為開啟狀態,啟動ComfyUI伺服器時需指定連接埠(例如7860)用於訪問其圖形化介面。您需要提前確認安全性群組的入方向已開放22、7860連接埠,如果未開放,請手動配置安全性群組規則

安裝ComfyUI+DeepGPU加速組件

ComfyUI屬於開源專案,請您自行安裝,然後按照本文操作安裝DeepGPU加速組件。如需瞭解ComfyUI上整合的DeepGPU類型節點及相關工作流程,請參見節點和工作流程介紹

  1. 自行準備ComfyUI。

    說明

    ComfyUI屬於開源專案,請您自行安裝。如需瞭解ComfyUI上相關的節點和工作流程樣本,請參見節點和工作流程介紹

    如果在ComfyUI上載入原生LoRA模型(即使用LoraLoaderModelOnly載入LoRA模型),且使用deepgpu-torch加速該模型時,須修改ComfyUI原始碼中的一行代碼。

    • ComfyUI為v0.3.6及以下版本

      ComfyUI/comfy/sd.py中的如下程式碼,添加一個參數weight_inplace_update=True),修改為新目標代碼。

      779

      新目標代碼如下:

      return comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=offload_device, weight_inplace_update=True)
    • ComfyUI為v0.3.7及以上版本

      ComfyUI/comfy/sd.py中的如下程式碼,添加一個參數weight_inplace_update=True,修改為新目標代碼。

      785

      新目標代碼如下:

      model_patcher = comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)
  2. 安裝DeepGPU加速組件。

    1. 通過Workbench遠端連線GPU執行個體

    2. 查看python版本,確認是否適配deepgpu-torch加速組件依賴要求。

      deepgpu-torch加速組件依賴於python 3.10環境,需提前確認python版本是否滿足依賴條件。

      Ubuntu 22.04

      執行python3 -V查看Python版本(如下圖所示),Ubuntu 22.04系統預設已安裝Python 3.10.12版本,滿足deepgpu-torch加速組件依賴要求。

      python3

      Ubuntu 20.04

      執行python3 -V查看Python版本(如下圖所示),Ubuntu 20.04系統預設已安裝Python 3.8.10版本,不滿足deepgpu-torch加速組件依賴要求。

      python3

      您可以通過安裝 Miniconda 來搭建一個基於Python 3.10的獨立環境,或者自行選擇其他方法建立基於Python 3.10的環境。

      1. 執行以下命令,下載Miniconda安裝指令碼。

        wget https://repo.anaconda.com/miniconda/Miniconda3-py310_24.1.2-0-Linux-x86_64.sh
      2. 執行以下命令,安裝Miniconda並啟用Miniconda環境。

        bash ./Miniconda3-py310_24.1.2-0-Linux-x86_64.sh -b -p /workspace/miniconda
        source /workspace/miniconda/bin/activate
      3. 再次執行python3 -V查看Python版本。

        3

        說明

        重新進入系統時,您需要執行source /workspace/miniconda/bin/activate命令切換到虛擬Python 3.10環境。

    3. 執行以下命令,安裝torch。

      deepgpu-torch加速組件依賴於torch 2.5.x+cu124(即torch 2.5.x預設安裝的CUDA版本)環境。本樣本以安裝torch 2.5.0版本為例,如需安裝其他版本,請替換相應的torch版本。

      pip install torch==2.5.0

      執行python3 -c "import torch; print(torch.__version__)"確認torch 2.5.0+cu124已安裝。

      torch

    4. 執行以下命令,安裝deepgpu-torch。

      apt-get install which curl iputils-ping -y
      pip install deepgpu-torch==0.0.15+torch2.5.0cu124 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html

      執行pip list | grep deepgpu-torch,查看已安裝的deepgpu-torch版本資訊。

      deeptorch

    5. 執行以下命令,下載並安裝DeepGPU加速組件的外掛程式(用於適配ComfyUI)。

      將DeepGPU加速組件的外掛程式下載後,解壓到ComfyUI/custom_nodes/目錄下。

      cd ComfyUI/custom_nodes/
      wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/20250102/ComfyUI-deepgpu.tar.gz
      tar zxf ComfyUI-deepgpu.tar.gz
      cd ../..
      
      pip install deepgpu-comfyui==1.0.8 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html

      執行pip list | grep deepgpu-comfyui命令,查看DeepGPU加速組件的外掛程式已安裝。

      chajian

使用ComfyUI+DeepGPU加速文生圖

本樣本以Ubuntu 22.04系統的gn7ix執行個體上安裝DeepGPU加速版為例,展示使用ComfyUI+DeepGPU測試FLUX模型的文生圖加速效果。

  1. 安裝基礎環境(torch、ComfyUI相關依賴和deepgpu加速組件)。

    1. 通過Workbench遠端連線GPU執行個體

    2. 執行python3 -V命令,確保python版本為3.10版本。

      Ubuntu 22.04系統預設已安裝Python 3.10.12版本,滿足deepgpu-torch加速組件依賴要求。如果您使用的是Ubuntu 20.04系統的GPU執行個體,請繼續搭建一個基於Python 3.10的獨立環境。更多資訊,請參見Ubuntu 20.04

    3. 執行以下命令,安裝torch。

      # 以安裝torch 2.5.0版本為例,如需安裝其他版本,請替換相應的torch版本。
      pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0

      執行python3 -c "import torch; print(torch.__version__)" 查看已安裝的torch版本。

      torch版本

    4. 執行以下命令,安裝ComfyUI相關依賴。

      pip install PyYAML safetensors numpy Pillow einops psutil transformers scipy torchsde aiohttp comfyui-frontend-package==1.11.8 kornia spandrel av
    5. 執行以下命令,安裝deepgpu加速組件。

      apt-get install which curl iputils-ping -y
      pip install deepgpu-torch==0.0.15+torch2.5.0cu124 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html
      pip install deepgpu-comfyui==1.0.8 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html

      執行pip list | grep deepgpu-torchpip list | grep deepgpu-comfyui查看安裝的deepgpu加速組件版本。

      deepgpu版本

  2. 執行以下命令,下載ComfyUI原始碼。

    本樣本僅以下載ComfyUI原始碼為例,您可以自行下載定製化後的ComfyUI代碼。

    Ubuntu 22.04

    git clone -b v0.3.26 https://github.com/comfyanonymous/ComfyUI
    sed -i "s|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device())|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)|g" ComfyUI/comfy/sd.py

    Ubuntu 20.04

    apt install git
    git clone -b v0.3.26 https://github.com/comfyanonymous/ComfyUI
    sed -i "s|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device())|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)|g" ComfyUI/comfy/sd.py
  3. 執行以下命令,下載DeepGPU加速組件的外掛程式。

    cd ComfyUI/custom_nodes/
    wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/20250102/ComfyUI-deepgpu.tar.gz
    tar zxf ComfyUI-deepgpu.tar.gz
    ls
    cd ../..
  4. 執行以下命令,下載FLUX模型。

    本樣本僅以下載官網FLUX模型為例,您可以自行下載已訓練的模型。

    cd ComfyUI
    wget -P models/unet https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/flux1-dev.safetensors
    wget -P models/clip https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/t5xxl_fp16.safetensors
    wget -P models/clip https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/clip_l.safetensors
    wget -P models/vae https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/ae.safetensors
    說明

    下載模型可能需要大約一定時間,請您耐心等待。

  5. 執行以下命令,啟動ComfyUI服務。

    python3 main.py --listen 0.0.0.0 --port 7860
  6. 在瀏覽器中輸入http://IP:7860,訪問ComfyUI服務。

    IP為所在GPU服務的公網出口IP。

  7. ComfyUI介面,選擇工作流程 > 開啟,選擇樣本工作流程中提供的json檔案,然後單擊執行

    重要

    如果先測試了配置DeepGPU加速節點情境,再測試未配置DeepGPU加速節點情境,則每次切換配置時您都需要重啟ComfyUI服務。

    • 未啟用deepgpu加速功能:即JSON檔案選擇flux-dev基礎版本(workflow_flux.json),工作流程執行效果展示:

      文生圖

    • 啟用deepgpu加速功能:即JSON檔案選擇flux-dev DeepyTorch加速版本(workflow_flux_deepytorch.json),工作流程執行效果展示:

      文生圖2

    執行完成後,在GPU遠端連線頁面查看文生圖執行時間,即查看Prompt executed in欄位後的時間(如下圖)。您可以看到,相比未配置ComfyUI+DeepGPU加速節點的情況,在GPU執行個體上配置ComfyUI+DeepGPU加速節點後,其文生圖加速效能顯著提升,更多效能比較,請參見加速效能對比

    時間

節點和工作流程介紹

DeepGPU類型的節點介紹

DeepGPU加速組件外掛程式中包含DeepGPU類型的節點,您可以進入ComfyUI介面,在空白處按右鍵後,選擇,查看包含的DeepGPU類型節點。

deepseek節點

進入ComfyUI/custom_nodes/ComfyUI-deepgpu路徑下,開啟__init__.py檔案,您可以看到相應的節點類型,

節點類型

主要節點類型說明如下:

  • ApplyDeepyTorch節點:針對FLUX模型,ApplyDeepyTorch節點依賴其他節點,您需要將該節點插入到Load Diffusion Model、Load Flux LoRA或者Apply Flux IPAdapter節點之後;針對其他模型,該節點需插入到Load Checkpoint或者LoraLoaderModelOnly節點之後。

  • DeepyTorchSampler節點:針對FLUX模型,該節點是優於XLabsSampler的新採樣節點,用於替換XLabsSampler節點(x-flux-comfyui),您無需再插入ApplyDeepyTorch節點。

  • ApplyPulidFluxDeepyTorch節點:針對FLUX模型,該節點在功能和效能方面優於ApplyPulidFlux節點,用於替換ApplyPulidFlux節點(ComfyUI-PuLID-Flux-Enhanced),您無需再插入ApplyDeepyTorch節點。

樣本工作流程

本樣本為您展示如何在FLUX模型或者SD模型的工作流程中使用各節點來加速模型的推理效能。

FLUX.1模型

  • 僅針對flux-dev基本模型

    在ComfyUI介面的Load Diffusion Model節點後插入ApplyDeepyTorch節點,如下圖所示:

    image

    樣本工作流程檔案:

  • 針對ComfyUI原生LoRA模型

    說明

    開源FLUX.1-dev模型結合LoRA技術時,即支援XLabs實現的LoRA使用方式,也支援ComfyUI原生實現的LoRA使用方式。

    在ComfyUI介面的最後一個LoraLoaderModelOnly節點的後面插入ApplyDeepyTorch節點,如下圖所示:

    image

    樣本工作流程檔案:

  • 帶有Pulid外掛程式的FLUX模型

    說明

    Pulid外掛程式來源於ComfyUI-PuLID-Flux-Enhanced

    在ComfyUI介面,將Apply Pulid Flux節點替換為Apply Pulid Flux of DeepGPU節點後,再無需ApplyDeepyTorch節點。如下圖所示:

    image

  • 針對FLUX定製LoRA模型

    在啟動ComfyUI服務前,您需要設定以下環境變數才能在ComfyUI頁面執行工作流程。

    export DEEPGPU_ENABLE_FLUX_LORA=true

    在ComfyUI介面的最後一個Load Flux LoRA節點的後面插入ApplyDeepyTorch節點。如下圖所示:

    image

    樣本工作流程檔案:

  • 針對FLUX定製IP-Adapter

    在啟動ComfyUI服務前,您需要設定以下環境變數才能在ComfyUI頁面執行工作流程。

    export DEEPGPU_ENABLE_FLUX_LORA=true

    在ComfyUI介面的Apply Flux IPAdapter節點後插入ApplyDeepyTorch節點,並用DeepyTorch Sampler替換XLabsSampler節點,如下圖所示:

    說明

    該情境輸入的測試映像為XLabs-AI映像

    image

    樣本工作流程檔案:

  • 針對FLUX定製ControlNet

    在ComfyUI介面,使用DeepyTorch Sampler替換XlabsSampler節點即可,如下圖所示:

    說明

    該情境輸入的測試映像為XLabs-AI映像

    image

    樣本工作流程檔案:

SD1.5模型

  • 針對ComfyUI原生LoRA模型

    說明

    開源FLUX.1-dev模型結合LoRA技術時,即支援XLabs實現的LoRA使用方式,也支援ComfyUI原生實現的LoRA使用方式。

    在ComfyUI介面的最後一個LoraLoaderModelOnly節點的後面插入ApplyDeepyTorch節點,如下圖所示:

    image

    樣本工作流程檔案:

  • 針對SD定製ControlNet

    在ComfyUI介面的Load Checkpoint節點後插入ApplyDeepyTorch節點,如下圖所示:

    image

    樣本工作流程檔案:

SDXL模型

為提高SDXL模型的推理速度,需在ComfyUI介面的BASE和REFINER的Load Checkpoint節點後分別插入ApplyDeepyTorch節點。如下圖所示:

image

樣本工作流程檔案: