對於需要文生圖的業務情境,使用ComfyUI+DeepGPU可以加速FLUX模型或SD模型的推理速度。例如,對於FLUX模型來說,相比未配置ComfyUI DeepGPU加速節點的情況,在GPU執行個體上配置ComfyUI+DeepGPU加速節點後,其文生圖加速效能提升約30%。本文為您介紹如何安裝並使用ComfyUI+DeepGPU來加速文生圖。
加速效能對比
DeepGPU推理加速組件由阿里雲推出,旨在為FLUX.1、SD或SDXL模型提供顯著的文生圖推理加速效能。
與未配置ComfyUI+DeepGPU加速節點的情境相比,在GPU執行個體上(推薦單卡gn8is執行個體)配置ComfyUI+DeepGPU加速節點後,針對bf16和fp8兩種精度的flux1-dev模型來說,其加速效能提升約30%。部分模型的文生圖加速效能對比如下:
|
模型權重精度 |
映像解析度(WxH) |
耗時(未啟用deepgpu加速功能) |
耗時(啟用deepgpu加速功能) |
速度提升率 |
|
default(bf16) |
1024 x 1024 |
20.83s |
16.62s |
25.3% |
|
default(bf16) |
1280 x 720 |
19.02s |
15.07s |
26.2% |
|
default(bf16) |
680 x 1024 |
14.21s |
11.21s |
26.8% |
|
default(bf16) |
576 x 768 |
8.81s |
7.27s |
21.2% |
|
fp8_e4m3_fast |
1024 x 1024 |
15.16s |
11.15s |
36.0% |
|
fp8_e4m3_fast |
1280 x 720 |
13.66s |
9.97s |
37.0% |
|
fp8_e4m3_fast |
680 x 1024 |
9.93s |
7.51s |
32.2% |
|
fp8_e4m3_fast |
576 x 768 |
6.07s |
4.88s |
24.4% |
前提條件
-
已建立GPU執行個體,且GPU執行個體需滿足以下要求:
-
已配置安全性群組規則。
遠端連線執行個體所需的22連接埠在建立安全性群組時預設為開啟狀態,啟動ComfyUI伺服器時需指定連接埠(例如7860)用於訪問其圖形化介面。您需要提前確認安全性群組的入方向已開放22、7860連接埠,如果未開放,請手動配置安全性群組規則。
安裝ComfyUI+DeepGPU加速組件
ComfyUI屬於開源專案,請您自行安裝,然後按照本文操作安裝DeepGPU加速組件。如需瞭解ComfyUI上整合的DeepGPU類型節點及相關工作流程,請參見節點和工作流程介紹。
-
自行準備ComfyUI。
說明ComfyUI屬於開源專案,請您自行安裝。如需瞭解ComfyUI上相關的節點和工作流程樣本,請參見節點和工作流程介紹。
如果在ComfyUI上載入原生LoRA模型(即使用LoraLoaderModelOnly載入LoRA模型),且使用deepgpu-torch加速該模型時,須修改ComfyUI原始碼中的一行代碼。
-
-
安裝DeepGPU加速組件。
-
查看python版本,確認是否適配deepgpu-torch加速組件依賴要求。
deepgpu-torch加速組件依賴於python 3.10環境,需提前確認python版本是否滿足依賴條件。
Ubuntu 22.04
執行
python3 -V查看Python版本(如下圖所示),Ubuntu 22.04系統預設已安裝Python 3.10.12版本,滿足deepgpu-torch加速組件依賴要求。
Ubuntu 20.04
執行
python3 -V查看Python版本(如下圖所示),Ubuntu 20.04系統預設已安裝Python 3.8.10版本,不滿足deepgpu-torch加速組件依賴要求。
您可以通過安裝 Miniconda 來搭建一個基於Python 3.10的獨立環境,或者自行選擇其他方法建立基於Python 3.10的環境。
-
執行以下命令,下載Miniconda安裝指令碼。
wget https://repo.anaconda.com/miniconda/Miniconda3-py310_24.1.2-0-Linux-x86_64.sh -
執行以下命令,安裝Miniconda並啟用Miniconda環境。
bash ./Miniconda3-py310_24.1.2-0-Linux-x86_64.sh -b -p /workspace/miniconda source /workspace/miniconda/bin/activate -
再次執行
python3 -V查看Python版本。
說明重新進入系統時,您需要執行
source /workspace/miniconda/bin/activate命令切換到虛擬Python 3.10環境。
-
-
執行以下命令,安裝torch。
deepgpu-torch加速組件依賴於torch 2.5.x+cu124(即torch 2.5.x預設安裝的CUDA版本)環境。本樣本以安裝torch 2.5.0版本為例,如需安裝其他版本,請替換相應的torch版本。
pip install torch==2.5.0執行
python3 -c "import torch; print(torch.__version__)"確認torch 2.5.0+cu124已安裝。
-
執行以下命令,安裝deepgpu-torch。
apt-get install which curl iputils-ping -y pip install deepgpu-torch==0.0.15+torch2.5.0cu124 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html執行
pip list | grep deepgpu-torch,查看已安裝的deepgpu-torch版本資訊。
-
執行以下命令,下載並安裝DeepGPU加速組件的外掛程式(用於適配ComfyUI)。
將DeepGPU加速組件的外掛程式下載後,解壓到
ComfyUI/custom_nodes/目錄下。cd ComfyUI/custom_nodes/ wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/20250102/ComfyUI-deepgpu.tar.gz tar zxf ComfyUI-deepgpu.tar.gz cd ../.. pip install deepgpu-comfyui==1.0.8 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html執行
pip list | grep deepgpu-comfyui命令,查看DeepGPU加速組件的外掛程式已安裝。
使用ComfyUI+DeepGPU加速文生圖
本樣本以Ubuntu 22.04系統的gn7ix執行個體上安裝DeepGPU加速版為例,展示使用ComfyUI+DeepGPU測試FLUX模型的文生圖加速效果。
-
安裝基礎環境(torch、ComfyUI相關依賴和deepgpu加速組件)。
-
執行
python3 -V命令,確保python版本為3.10版本。Ubuntu 22.04系統預設已安裝Python 3.10.12版本,滿足deepgpu-torch加速組件依賴要求。如果您使用的是Ubuntu 20.04系統的GPU執行個體,請繼續搭建一個基於Python 3.10的獨立環境。更多資訊,請參見Ubuntu 20.04。
-
執行以下命令,安裝torch。
# 以安裝torch 2.5.0版本為例,如需安裝其他版本,請替換相應的torch版本。 pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0執行
python3 -c "import torch; print(torch.__version__)"查看已安裝的torch版本。
-
執行以下命令,安裝ComfyUI相關依賴。
pip install PyYAML safetensors numpy Pillow einops psutil transformers scipy torchsde aiohttp comfyui-frontend-package==1.11.8 kornia spandrel av -
執行以下命令,安裝deepgpu加速組件。
apt-get install which curl iputils-ping -y pip install deepgpu-torch==0.0.15+torch2.5.0cu124 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html pip install deepgpu-comfyui==1.0.8 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html執行
pip list | grep deepgpu-torch或pip list | grep deepgpu-comfyui查看安裝的deepgpu加速組件版本。
-
執行以下命令,下載ComfyUI原始碼。
本樣本僅以下載ComfyUI原始碼為例,您可以自行下載定製化後的ComfyUI代碼。
Ubuntu 22.04
git clone -b v0.3.26 https://github.com/comfyanonymous/ComfyUI sed -i "s|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device())|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)|g" ComfyUI/comfy/sd.pyUbuntu 20.04
apt install git git clone -b v0.3.26 https://github.com/comfyanonymous/ComfyUI sed -i "s|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device())|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)|g" ComfyUI/comfy/sd.py -
執行以下命令,下載DeepGPU加速組件的外掛程式。
cd ComfyUI/custom_nodes/ wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/20250102/ComfyUI-deepgpu.tar.gz tar zxf ComfyUI-deepgpu.tar.gz ls cd ../.. -
執行以下命令,下載FLUX模型。
本樣本僅以下載官網FLUX模型為例,您可以自行下載已訓練的模型。
cd ComfyUI wget -P models/unet https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/flux1-dev.safetensors wget -P models/clip https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/t5xxl_fp16.safetensors wget -P models/clip https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/clip_l.safetensors wget -P models/vae https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/ae.safetensors說明下載模型可能需要大約一定時間,請您耐心等待。
-
執行以下命令,啟動ComfyUI服務。
python3 main.py --listen 0.0.0.0 --port 7860 -
在瀏覽器中輸入
http://IP:7860,訪問ComfyUI服務。IP為所在GPU服務的公網出口IP。 -
在ComfyUI介面,選擇,選擇樣本工作流程中提供的json檔案,然後單擊執行。
重要如果先測試了配置DeepGPU加速節點情境,再測試未配置DeepGPU加速節點情境,則每次切換配置時您都需要重啟ComfyUI服務。
-
未啟用deepgpu加速功能:即JSON檔案選擇flux-dev基礎版本(workflow_flux.json),工作流程執行效果展示:

-
啟用deepgpu加速功能:即JSON檔案選擇flux-dev DeepyTorch加速版本(workflow_flux_deepytorch.json),工作流程執行效果展示:

執行完成後,在GPU遠端連線頁面查看文生圖執行時間,即查看
Prompt executed in欄位後的時間(如下圖)。您可以看到,相比未配置ComfyUI+DeepGPU加速節點的情況,在GPU執行個體上配置ComfyUI+DeepGPU加速節點後,其文生圖加速效能顯著提升,更多效能比較,請參見加速效能對比。
-
節點和工作流程介紹
DeepGPU類型的節點介紹
DeepGPU加速組件外掛程式中包含DeepGPU類型的節點,您可以進入ComfyUI介面,在空白處按右鍵後,選擇,查看包含的DeepGPU類型節點。

進入ComfyUI/custom_nodes/ComfyUI-deepgpu路徑下,開啟__init__.py檔案,您可以看到相應的節點類型,

主要節點類型說明如下:
-
ApplyDeepyTorch節點:針對FLUX模型,ApplyDeepyTorch節點依賴其他節點,您需要將該節點插入到Load Diffusion Model、Load Flux LoRA或者Apply Flux IPAdapter節點之後;針對其他模型,該節點需插入到Load Checkpoint或者LoraLoaderModelOnly節點之後。
-
DeepyTorchSampler節點:針對FLUX模型,該節點是優於XLabsSampler的新採樣節點,用於替換XLabsSampler節點(x-flux-comfyui),您無需再插入ApplyDeepyTorch節點。
-
ApplyPulidFluxDeepyTorch節點:針對FLUX模型,該節點在功能和效能方面優於ApplyPulidFlux節點,用於替換ApplyPulidFlux節點(ComfyUI-PuLID-Flux-Enhanced),您無需再插入ApplyDeepyTorch節點。
樣本工作流程
本樣本為您展示如何在FLUX模型或者SD模型的工作流程中使用各節點來加速模型的推理效能。
FLUX.1模型
-
僅針對
flux-dev基本模型在ComfyUI介面的
Load Diffusion Model節點後插入ApplyDeepyTorch節點,如下圖所示:
樣本工作流程檔案:
-
flux-dev基礎版本:workflow_flux.json
-
flux-dev DeepyTorch加速版本:workflow_flux_deepytorch.json
-
-
針對ComfyUI原生LoRA模型
說明開源FLUX.1-dev模型結合LoRA技術時,即支援XLabs實現的LoRA使用方式,也支援ComfyUI原生實現的LoRA使用方式。
在ComfyUI介面的最後一個
LoraLoaderModelOnly節點的後面插入ApplyDeepyTorch節點,如下圖所示:
樣本工作流程檔案:
-
flux-dev+lora原始版本:workflow_flux_lora_wukong.json
-
flux-dev+lora DeepyTorch加速版本:workflow_flux_lora_deepytorch_wukong.json
-
-
帶有Pulid外掛程式的FLUX模型
說明Pulid外掛程式來源於ComfyUI-PuLID-Flux-Enhanced。
在ComfyUI介面,將
Apply Pulid Flux節點替換為Apply Pulid Flux of DeepGPU節點後,再無需ApplyDeepyTorch節點。如下圖所示:
-
針對FLUX定製LoRA模型
在啟動ComfyUI服務前,您需要設定以下環境變數才能在ComfyUI頁面執行工作流程。
export DEEPGPU_ENABLE_FLUX_LORA=true在ComfyUI介面的最後一個
Load Flux LoRA節點的後面插入ApplyDeepyTorch節點。如下圖所示:
樣本工作流程檔案:
-
flux-dev+lora原始版本:workflow_flux_lora.json
-
flux-dev+lora DeepyTorch加速版本:workflow_flux_lora_deepytorch.json
-
-
針對FLUX定製IP-Adapter
在啟動ComfyUI服務前,您需要設定以下環境變數才能在ComfyUI頁面執行工作流程。
export DEEPGPU_ENABLE_FLUX_LORA=true在ComfyUI介面的
Apply Flux IPAdapter節點後插入ApplyDeepyTorch節點,並用DeepyTorch Sampler替換XLabsSampler節點,如下圖所示:說明該情境輸入的測試映像為XLabs-AI映像。

樣本工作流程檔案:
-
flux-dev+ip-adapter原始版本:workflow_flux_ipadapter.json
-
flux-dev+ip-adapter DeepyTorch加速版本:workflow_flux_ipadapter_deepytorch.json
-
-
針對FLUX定製ControlNet
在ComfyUI介面,使用
DeepyTorch Sampler替換XlabsSampler節點即可,如下圖所示:說明該情境輸入的測試映像為XLabs-AI映像。

樣本工作流程檔案:
-
flux-dev+controlnet原始版本:workflow_flux_controlnet.json
-
flux-dev+controlnet DeepyTorch加速版本:workflow_flux_controlnet_deepytorch.json
-
SD1.5模型
-
針對ComfyUI原生LoRA模型
說明開源FLUX.1-dev模型結合LoRA技術時,即支援XLabs實現的LoRA使用方式,也支援ComfyUI原生實現的LoRA使用方式。
在ComfyUI介面的最後一個
LoraLoaderModelOnly節點的後面插入ApplyDeepyTorch節點,如下圖所示:
樣本工作流程檔案:
-
flux-dev+lora原始版本:workflow_flux_lora_wukong.json
-
flux-dev+lora DeepyTorch加速版本:workflow_flux_lora_deepytorch_wukong.json
-
-
針對SD定製ControlNet
在ComfyUI介面的
Load Checkpoint節點後插入ApplyDeepyTorch節點,如下圖所示:
樣本工作流程檔案:
-
sd1.5+controlnet原始版本:workflow_sd1.5_controlnet.json
-
sd1.5+controlnet DeepyTorch加速版本:workflow_sd1.5_controlnet_deepytorch.json
-
SDXL模型
為提高SDXL模型的推理速度,需在ComfyUI介面的BASE和REFINER的Load Checkpoint節點後分別插入ApplyDeepyTorch節點。如下圖所示:

樣本工作流程檔案:
-
sdxl原始版本:workflow_sdxl_base_refiner.json
-
sdxl DeepyTorch加速版本:workflow_sdxl_base_refiner_deepytorch.json

