安裝並使用ComfyUI+DeepGPU加速模型（FLUX.1/SD/SDXL）文生圖推理 - Elastic GPU Service

加速效能對比

說明

DeepGPU推理加速組件由阿里雲推出，旨在為FLUX.1、SD或SDXL模型提供顯著的文生圖推理加速效能。

與未配置ComfyUI+DeepGPU加速節點的情境相比，在GPU執行個體上（推薦單卡gn8is執行個體）配置ComfyUI+DeepGPU加速節點後，針對bf16和fp8兩種精度的flux1-dev模型來說，其加速效能提升約30%。部分模型的文生圖加速效能對比如下：

模型權重精度	映像解析度（WxH）	耗時（未啟用deepgpu加速功能）	耗時（啟用deepgpu加速功能）	速度提升率
default(bf16)	1024 x 1024	20.83s	16.62s	25.3%
default(bf16)	1280 x 720	19.02s	15.07s	26.2%
default(bf16)	680 x 1024	14.21s	11.21s	26.8%
default(bf16)	576 x 768	8.81s	7.27s	21.2%
fp8_e4m3_fast	1024 x 1024	15.16s	11.15s	36.0%
fp8_e4m3_fast	1280 x 720	13.66s	9.97s	37.0%
fp8_e4m3_fast	680 x 1024	9.93s	7.51s	32.2%
fp8_e4m3_fast	576 x 768	6.07s	4.88s	24.4%

前提條件

已建立GPU執行個體，且GPU執行個體需滿足以下要求：
- 作業系統僅為Ubuntu 20.04和Ubuntu 22.04。
- 已安裝NVIDIA Driver、CUDA且滿足相應的版本要求。
  
  說明
  建立GPU執行個體時，建議在選擇鏡像後，同時選中安裝GPU驅動選項，並依次選擇的CUDA版本、Driver版本以及cuDNN版本。
- 執行個體已指派固定公網IP地址或綁定Elastic IP Address（EIP）。如您不清楚如何開通公網，請參見開通公網。
已配置安全性群組規則。

遠端連線執行個體所需的22連接埠在建立安全性群組時預設為開啟狀態，啟動ComfyUI伺服器時需指定連接埠（例如7860）用於訪問其圖形化介面。您需要提前確認安全性群組的入方向已開放22、7860連接埠，如果未開放，請手動配置安全性群組規則。

安裝ComfyUI+DeepGPU加速組件

ComfyUI屬於開源專案，請您自行安裝，然後按照本文操作安裝DeepGPU加速組件。如需瞭解ComfyUI上整合的DeepGPU類型節點及相關工作流程，請參見節點和工作流程介紹。

自行準備ComfyUI。

說明
ComfyUI屬於開源專案，請您自行安裝。如需瞭解ComfyUI上相關的節點和工作流程樣本，請參見節點和工作流程介紹。

如果在ComfyUI上載入原生LoRA模型（即使用LoraLoaderModelOnly載入LoRA模型），且使用deepgpu-torch加速該模型時，須修改ComfyUI原始碼中的一行代碼。
- ComfyUI為v0.3.6及以下版本
  將ComfyUI/comfy/sd.py中的如下程式碼，添加一個參數weight_inplace_update=True），修改為新目標代碼。
  
  新目標代碼如下：
```
return comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=offload_device, weight_inplace_update=True)
```
- ComfyUI為v0.3.7及以上版本
  將ComfyUI/comfy/sd.py中的如下程式碼，添加一個參數weight_inplace_update=True，修改為新目標代碼。
  
  新目標代碼如下：
```
model_patcher = comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)
```
安裝DeepGPU加速組件。
1. 通過Workbench遠端連線GPU執行個體。
2. 查看python版本，確認是否適配deepgpu-torch加速組件依賴要求。
  
  deepgpu-torch加速組件依賴於python 3.10環境，需提前確認python版本是否滿足依賴條件。
  Ubuntu 22.04
  
  執行python3 -V查看Python版本（如下圖所示），Ubuntu 22.04系統預設已安裝Python 3.10.12版本，滿足deepgpu-torch加速組件依賴要求。
  Ubuntu 20.04
  
  執行python3 -V查看Python版本（如下圖所示），Ubuntu 20.04系統預設已安裝Python 3.8.10版本，不滿足deepgpu-torch加速組件依賴要求。
  
  您可以通過安裝 Miniconda 來搭建一個基於Python 3.10的獨立環境，或者自行選擇其他方法建立基於Python 3.10的環境。
  1. 執行以下命令，下載Miniconda安裝指令碼。
    wget https://repo.anaconda.com/miniconda/Miniconda3-py310_24.1.2-0-Linux-x86_64.sh
  2. 執行以下命令，安裝Miniconda並啟用Miniconda環境。
    bash ./Miniconda3-py310_24.1.2-0-Linux-x86_64.sh -b -p /workspace/miniconda source /workspace/miniconda/bin/activate
  3. 再次執行python3 -V查看Python版本。
    
    說明
    重新進入系統時，您需要執行source /workspace/miniconda/bin/activate命令切換到虛擬Python 3.10環境。
3. 執行以下命令，安裝torch。
  
  deepgpu-torch加速組件依賴於torch 2.5.x+cu124（即torch 2.5.x預設安裝的CUDA版本）環境。本樣本以安裝torch 2.5.0版本為例，如需安裝其他版本，請替換相應的torch版本。
```
pip install torch==2.5.0
```
  執行python3 -c "import torch; print(torch.__version__)"確認torch 2.5.0+cu124已安裝。
4. 執行以下命令，安裝deepgpu-torch。
```
apt-get install which curl iputils-ping -y
pip install deepgpu-torch==0.0.15+torch2.5.0cu124 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html
```
  執行pip list | grep deepgpu-torch，查看已安裝的deepgpu-torch版本資訊。
5. 執行以下命令，下載並安裝DeepGPU加速組件的外掛程式（用於適配ComfyUI）。
  
  將DeepGPU加速組件的外掛程式下載後，解壓到ComfyUI/custom_nodes/目錄下。
```
cd ComfyUI/custom_nodes/
wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/20250102/ComfyUI-deepgpu.tar.gz
tar zxf ComfyUI-deepgpu.tar.gz
cd ../..

pip install deepgpu-comfyui==1.0.8 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html
```
  執行pip list | grep deepgpu-comfyui命令，查看DeepGPU加速組件的外掛程式已安裝。

使用ComfyUI+DeepGPU加速文生圖

本樣本以Ubuntu 22.04系統的gn7ix執行個體上安裝DeepGPU加速版為例，展示使用ComfyUI+DeepGPU測試FLUX模型的文生圖加速效果。

安裝基礎環境（torch、ComfyUI相關依賴和deepgpu加速組件）。
1. 通過Workbench遠端連線GPU執行個體。
2. 執行python3 -V命令，確保python版本為3.10版本。
  
  Ubuntu 22.04系統預設已安裝Python 3.10.12版本，滿足deepgpu-torch加速組件依賴要求。如果您使用的是Ubuntu 20.04系統的GPU執行個體，請繼續搭建一個基於Python 3.10的獨立環境。更多資訊，請參見Ubuntu 20.04。
3. 執行以下命令，安裝torch。
```
# 以安裝torch 2.5.0版本為例，如需安裝其他版本，請替換相應的torch版本。
pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0
```
  執行python3 -c "import torch; print(torch.__version__)" 查看已安裝的torch版本。
4. 執行以下命令，安裝ComfyUI相關依賴。
```
pip install PyYAML safetensors numpy Pillow einops psutil transformers scipy torchsde aiohttp comfyui-frontend-package==1.11.8 kornia spandrel av
```
5. 執行以下命令，安裝deepgpu加速組件。
```
apt-get install which curl iputils-ping -y
pip install deepgpu-torch==0.0.15+torch2.5.0cu124 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html
pip install deepgpu-comfyui==1.0.8 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html
```
  執行pip list | grep deepgpu-torch或pip list | grep deepgpu-comfyui查看安裝的deepgpu加速組件版本。

執行以下命令，下載ComfyUI原始碼。

本樣本僅以下載ComfyUI原始碼為例，您可以自行下載定製化後的ComfyUI代碼。

Ubuntu 22.04

git clone -b v0.3.26 https://github.com/comfyanonymous/ComfyUI
sed -i "s|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device())|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)|g" ComfyUI/comfy/sd.py

Ubuntu 20.04

apt install git
git clone -b v0.3.26 https://github.com/comfyanonymous/ComfyUI
sed -i "s|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device())|comfy.model_patcher.ModelPatcher(model, load_device=load_device, offload_device=model_management.unet_offload_device(), weight_inplace_update=True)|g" ComfyUI/comfy/sd.py

執行以下命令，下載DeepGPU加速組件的外掛程式。

cd ComfyUI/custom_nodes/
wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/20250102/ComfyUI-deepgpu.tar.gz
tar zxf ComfyUI-deepgpu.tar.gz
ls
cd ../..

執行以下命令，下載FLUX模型。

本樣本僅以下載官網FLUX模型為例，您可以自行下載已訓練的模型。

cd ComfyUI
wget -P models/unet https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/flux1-dev.safetensors
wget -P models/clip https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/t5xxl_fp16.safetensors
wget -P models/clip https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/clip_l.safetensors
wget -P models/vae https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/flux/models/ae.safetensors

說明

下載模型可能需要大約一定時間，請您耐心等待。

執行以下命令，啟動ComfyUI服務。

python3 main.py --listen 0.0.0.0 --port 7860

在瀏覽器中輸入http://IP:7860，訪問ComfyUI服務。

IP為所在GPU服務的公網出口IP。
在ComfyUI介面，選擇工作流程 > 開啟，選擇樣本工作流程中提供的json檔案，然後單擊執行。

重要
如果先測試了配置DeepGPU加速節點情境，再測試未配置DeepGPU加速節點情境，則每次切換配置時您都需要重啟ComfyUI服務。
- 未啟用deepgpu加速功能：即JSON檔案選擇flux-dev基礎版本（workflow_flux.json），工作流程執行效果展示：
- 啟用deepgpu加速功能：即JSON檔案選擇flux-dev DeepyTorch加速版本（workflow_flux_deepytorch.json），工作流程執行效果展示：
執行完成後，在GPU遠端連線頁面查看文生圖執行時間，即查看Prompt executed in欄位後的時間（如下圖）。您可以看到，相比未配置ComfyUI+DeepGPU加速節點的情況，在GPU執行個體上配置ComfyUI+DeepGPU加速節點後，其文生圖加速效能顯著提升，更多效能比較，請參見加速效能對比。

節點和工作流程介紹

DeepGPU類型的節點介紹

DeepGPU加速組件外掛程式中包含DeepGPU類型的節點，您可以進入ComfyUI介面，在空白處按右鍵後，選擇，查看包含的DeepGPU類型節點。

deepseek節點

進入ComfyUI/custom_nodes/ComfyUI-deepgpu路徑下，開啟__init__.py檔案，您可以看到相應的節點類型，

節點類型

主要節點類型說明如下：

ApplyDeepyTorch節點：針對FLUX模型，ApplyDeepyTorch節點依賴其他節點，您需要將該節點插入到Load Diffusion Model、Load Flux LoRA或者Apply Flux IPAdapter節點之後；針對其他模型，該節點需插入到Load Checkpoint或者LoraLoaderModelOnly節點之後。
DeepyTorchSampler節點：針對FLUX模型，該節點是優於XLabsSampler的新採樣節點，用於替換XLabsSampler節點（x-flux-comfyui），您無需再插入ApplyDeepyTorch節點。
ApplyPulidFluxDeepyTorch節點：針對FLUX模型，該節點在功能和效能方面優於ApplyPulidFlux節點，用於替換ApplyPulidFlux節點（ComfyUI-PuLID-Flux-Enhanced），您無需再插入ApplyDeepyTorch節點。

樣本工作流程

本樣本為您展示如何在FLUX模型或者SD模型的工作流程中使用各節點來加速模型的推理效能。

FLUX.1模型

僅針對flux-dev基本模型

在ComfyUI介面的Load Diffusion Model節點後插入ApplyDeepyTorch節點，如下圖所示：

樣本工作流程檔案：
- flux-dev基礎版本：workflow_flux.json
- flux-dev DeepyTorch加速版本：workflow_flux_deepytorch.json
針對ComfyUI原生LoRA模型

說明
開源FLUX.1-dev模型結合LoRA技術時，即支援XLabs實現的LoRA使用方式，也支援ComfyUI原生實現的LoRA使用方式。

在ComfyUI介面的最後一個LoraLoaderModelOnly節點的後面插入ApplyDeepyTorch節點，如下圖所示：

樣本工作流程檔案：
- flux-dev+lora原始版本：workflow_flux_lora_wukong.json
- flux-dev+lora DeepyTorch加速版本：workflow_flux_lora_deepytorch_wukong.json
帶有Pulid外掛程式的FLUX模型

說明
Pulid外掛程式來源於ComfyUI-PuLID-Flux-Enhanced。

在ComfyUI介面，將Apply Pulid Flux節點替換為Apply Pulid Flux of DeepGPU節點後，再無需ApplyDeepyTorch節點。如下圖所示：
針對FLUX定製LoRA模型

在啟動ComfyUI服務前，您需要設定以下環境變數才能在ComfyUI頁面執行工作流程。
```
export DEEPGPU_ENABLE_FLUX_LORA=true
```
在ComfyUI介面的最後一個Load Flux LoRA節點的後面插入ApplyDeepyTorch節點。如下圖所示：

樣本工作流程檔案：
- flux-dev+lora原始版本：workflow_flux_lora.json
- flux-dev+lora DeepyTorch加速版本：workflow_flux_lora_deepytorch.json
針對FLUX定製IP-Adapter

在啟動ComfyUI服務前，您需要設定以下環境變數才能在ComfyUI頁面執行工作流程。
```
export DEEPGPU_ENABLE_FLUX_LORA=true
```
在ComfyUI介面的Apply Flux IPAdapter節點後插入ApplyDeepyTorch節點，並用DeepyTorch Sampler替換XLabsSampler節點，如下圖所示：

說明
該情境輸入的測試映像為XLabs-AI映像。

樣本工作流程檔案：
- flux-dev+ip-adapter原始版本：workflow_flux_ipadapter.json
- flux-dev+ip-adapter DeepyTorch加速版本：workflow_flux_ipadapter_deepytorch.json
針對FLUX定製ControlNet

在ComfyUI介面，使用DeepyTorch Sampler替換XlabsSampler節點即可，如下圖所示：

說明
該情境輸入的測試映像為XLabs-AI映像。

樣本工作流程檔案：
- flux-dev+controlnet原始版本：workflow_flux_controlnet.json
- flux-dev+controlnet DeepyTorch加速版本：workflow_flux_controlnet_deepytorch.json

SD1.5模型

針對ComfyUI原生LoRA模型

說明
開源FLUX.1-dev模型結合LoRA技術時，即支援XLabs實現的LoRA使用方式，也支援ComfyUI原生實現的LoRA使用方式。

在ComfyUI介面的最後一個LoraLoaderModelOnly節點的後面插入ApplyDeepyTorch節點，如下圖所示：

樣本工作流程檔案：
- flux-dev+lora原始版本：workflow_flux_lora_wukong.json
- flux-dev+lora DeepyTorch加速版本：workflow_flux_lora_deepytorch_wukong.json
針對SD定製ControlNet

在ComfyUI介面的Load Checkpoint節點後插入ApplyDeepyTorch節點，如下圖所示：

樣本工作流程檔案：
- sd1.5+controlnet原始版本：workflow_sd1.5_controlnet.json
- sd1.5+controlnet DeepyTorch加速版本：workflow_sd1.5_controlnet_deepytorch.json

SDXL模型

為提高SDXL模型的推理速度，需在ComfyUI介面的BASE和REFINER的Load Checkpoint節點後分別插入ApplyDeepyTorch節點。如下圖所示：

樣本工作流程檔案：

sdxl原始版本：workflow_sdxl_base_refiner.json
sdxl DeepyTorch加速版本：workflow_sdxl_base_refiner_deepytorch.json