Container Compute Service (ACS) は、基盤となるハードウェアやノード構成を管理することなく、GPU 計算能力を提供します。 ACS はデプロイが容易で、従量課金に対応しており、大規模言語モデル (LLM) の推論タスクに最適なため、推論コストの削減に役立ちます。 この Topic では、ACS の GPU 計算能力と deepgpu-comfyui プラグインを使用して、Wan2.1 ビデオ生成を高速化する方法について説明します。
背景情報
ComfyUI
ComfyUI は、人気の text-to-image モデルである Stable Diffusion を実行およびカスタマイズするための、ノードベースのグラフィカルユーザーインターフェイス (GUI) です。コードを記述する代わりにノードをドラッグアンドドロップすることで、ユーザーが複雑なイメージ生成パイプラインを構築できる、視覚的なフローチャート (ワークフロー) を使用します。
Wan モデル
Tongyi Wanxiang (通義万象) は、Wan とも呼ばれ、Alibaba の Tongyi Lab (通義実験室) が開発した大規模な AI アートおよび text-to-image (AI 生成コンテンツ (AIGC)) モデルです。これは、Tongyi Qianwen (通義千問) 大規模モデルシリーズの視覚生成ブランチです。Wan は、中国語のプロンプトをサポートする世界初の AI アートモデルです。マルチモーダル機能を備えており、テキストの説明、手描きのスケッチ、または画像スタイルの転送から高品質のアートワークを生成できます。
前提条件
初めて Container Compute Service (ACS) を使用する際には、アカウントにデフォルトのロールを割り当てる必要があります。権限付与を完了した後にのみ、ACS は ECS、OSS、NAS、CPFS、SLB などの他のサービスを呼び出し、クラスターを作成し、ログを保存できます。詳細については、「初めて ACS を使用するユーザー向けのクイックスタート」をご参照ください。
サポートされている GPU カードタイプ: L20 (GN8IS) および G49E。
手順
ステップ 1: モデルデータを準備する
モデルファイルを永続的に保存するために、NAS または OSS ボリュームを作成します。このトピックでは、NAS ボリュームを例として使用します。NAS ボリュームがマウントされているディレクトリで、次のコマンドを実行します。
永続ボリュームの作成方法の詳細については、「NAS ファイルシステムをボリュームとして作成する」または「静的にプロビジョニングされた OSS ボリュームを使用する」をご参照ください。
次のコマンドを実行して ComfyUI をダウンロードします。
お使いの環境に Git がインストールされていることを確認してください。
git clone https://github.com/comfyanonymous/ComfyUI.git次のコマンドを実行して、以下の 3 つのモデルファイルを ComfyUI の対応するディレクトリにダウンロードします。モデルの詳細については、「Wan_2.1_ComfyUI_repackaged プロジェクト」をご参照ください。
スムーズにダウンロードするために、ピーク時のパブリック帯域幅を増やす必要がある場合があります。ダウンロードには約 30 分かかると予想されます。
wan2.1_t2v_14B_fp16.safetensorsファイルcd ComfyUI/models/diffusion_models wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/diffusion_models/wan2.1_t2v_14B_fp16.safetensorswan_2.1_vae.safetensorsファイルcd ComfyUI/models/vae wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/vae/wan_2.1_vae.safetensorsumt5_xxl_fp8_e4m3fn_scaled.safetensorsファイルcd ComfyUI/models/text_encoders wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
ComfyUI-deepgpu をダウンロードして解凍します。
cd ComfyUI/custom_nodes wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/nodes/20250513/ComfyUI-deepgpu.tar.gz tar zxf ComfyUI-deepgpu.tar.gz
ステップ 2: ComfyUI サービスをデプロイする
Container Compute Service コンソールにログインします。左側のナビゲーションウィンドウで、[クラスターリスト] を選択します。ターゲットクラスターの名前をクリックします。左側のナビゲーションウィンドウで、 を選択します。右上隅にある [YAML から作成] をクリックします。
このトピックでは、NAS ボリュームのマウントを例として使用します。次の YAML テンプレートを使用して、[作成] をクリックします。
persistentVolumeClaim.claimNameの値を、お使いの永続ボリューム要求 (PVC) の名前に合わせて変更してください。この例では、inference-nv-pytorch 25.07 イメージを使用します。
cn-beijing使用方法」をご参照ください。この例で使用されているテストコンテナイメージには、deepgpu-torch および deepgpu-comfyui プラグインがプリインストールされています。他のコンテナ環境でこれらのプラグインを使用するには、ソリューションアーキテクト (SA) に連絡してインストールパッケージを入手してください。
apiVersion: apps/v1 kind: Deployment metadata: labels: app: wanx-deployment name: wanx-deployment-test namespace: default spec: replicas: 1 selector: matchLabels: app: wanx-deployment template: metadata: labels: alibabacloud.com/compute-class: gpu alibabacloud.com/compute-qos: default alibabacloud.com/gpu-model-series: L20 #サポートされている GPU カードタイプ: L20 (GN8IS)、G49E app: wanx-deployment spec: containers: - command: - sh - -c - DEEPGPU_PUB_LS=true python3 /mnt/ComfyUI/main.py --listen 0.0.0.0 --port 7860 image: acs-registry-vpc.cn-beijing.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless imagePullPolicy: Always name: main resources: limits: nvidia.com/gpu: "1" cpu: "16" memory: 64Gi requests: nvidia.com/gpu: "1" cpu: "16" memory: 64Gi terminationMessagePath: /dev/termination-log terminationMessagePolicy: File volumeMounts: - mountPath: /dev/shm name: cache-volume - mountPath: /mnt #/mnt は、NAS ボリューム要求がマッピングされる Pod 内のパスです name: data dnsPolicy: ClusterFirst restartPolicy: Always schedulerName: default-scheduler securityContext: {} terminationGracePeriodSeconds: 30 volumes: - emptyDir: medium: Memory sizeLimit: 500G name: cache-volume - name: data persistentVolumeClaim: claimName: wanx-nas #wanx-nas は、NAS ボリュームから作成されたボリューム要求です --- apiVersion: v1 kind: Service metadata: name: wanx-test spec: type: LoadBalancer ports: - port: 7860 protocol: TCP targetPort: 7860 selector: app: wanx-deployment表示されるダイアログボックスで [表示] をクリックして、ワークロードの詳細ページに移動します。[ログ] タブをクリックします。次の出力が表示された場合、サービスは正常に開始されています。

ステップ 3: プラグインの使用方法を学ぶ
[アクセス方法] タブをクリックして、サービスの [外部エンドポイント] (例: 8.xxx.xxx.114:7860) を取得します。

ブラウザで ComfyUI の URL
http://8.xxx.xxx.114:7860/にアクセスします。ComfyUI インターフェイスで、右クリックしてから [ノードを追加] をクリックして、プラグインに含まれる [DeepGPU] ノードを表示します。初めて URL にアクセスする際、読み込みに約 5 分かかる場合があります。

ステップ 4: サンプルワークフローをテストする
ブラウザから wan2.1 DeepyTorch 高速化ワークフローをコンピューターにダウンロードします。
Image-to-video ワークフロー
https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_image_to_video_wan_1.3b_deepytorch.jsonText-to-video ワークフロー
https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan_deepytorch.json
以下の手順では、高速化された text-to-video ワークフローを例として使用します。ComfyUI で、 を選択し、ダウンロードした
workflow_text_to_video_wan_deepytorch.jsonファイルを選択します。ワークフローファイルを開いたら、[Apply DeepyTorch To Diffusion Model] ノードを見つけ、その [enable] パラメーターを [true] に設定して高速化を有効にします。次に、[実行] をクリックし、ビデオが生成されるのを待ちます。
DeepyTorch 高速化ワークフローは、Load Diffusion Model ノードの後に ApplyDeepyTorch ノードを挿入します。

左側の [キュー] ボタンをクリックして、ビデオの生成時間を確認し、ビデオをプレビューします。
最初のテスト実行には時間がかかる場合があります。最高のパフォーマンスを得るには、ワークフローをさらに 2、3 回実行してください。

(オプション) 高速化されていないシナリオをテストするには、ComfyUI サービスを再起動し、次のワークフローを選択してビデオを生成します。
https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan.json
