本記事は以下の公式ブログを参考にしています。
https://wanxai.com/
Wan2.1は、動画生成の可能性を大きく広げるオープンソースの動画基盤モデル。複数のタスクに対応し、高性能ながら一般的なGPUでも動作可能な設計が特徴。
既存のオープンソースモデルや商用モデルを凌駕する動画生成能力を持つ。
T2V-1.3Bモデルは8.19GBのVRAMで動作し、RTX 4090では480Pの5秒動画を約4分で生成可能。
テキストや画像をもとにした動画生成、動画編集、テキスト画像生成、動画音声変換などに対応。
テキストの動画内埋め込みに対応し、実用性が向上。
1080Pの動画を効率よくエンコード・デコードし、時間情報を維持した生成を実現。
480Pおよび720Pの動画生成に対応
閉源モデルを超える最先端の性能
複雑な視覚シーンや動きを忠実に再現
480P / 720Pの高品質な動画を生成
中国語・英語のテキストを動画内に埋め込むことが可能
480P動画を8.19GBのVRAMで生成可能
一般向けGPUで動作し、RTX 4090で5秒動画を約4分で生成
動画生成のために最適化された3D因果VAEを採用。時間情報の圧縮効率を向上させ、メモリ使用量を削減。長時間の動画にも対応できる特徴キャッシュ機構を導入し、GPUメモリの負荷を抑えながら高性能な処理を実現。
実験では、同じハードウェア環境(A800 GPU)で、従来のSOTA手法(HunYuanVideo)に比べて2.5倍の速度で動画を復元。
Flow Matchingフレームワークを採用した拡散変換器(DiT)を活用。T5 Encoderを利用し、テキストをモデルに効果的に埋め込む。SiLU関数を用いたパラメータ調整により、14B・1.3Bモデルで高い性能を発揮。
学習時にはFSDPとContext Parallelを併用し、モデルの並列処理を最適化。推論時にはFSDPによるシャーディングを活用し、大規模モデルの処理を効率化。14Bモデルでは2D Context Parallelを使用し、ほぼ線形なスピード向上を実現。
画像を元に動画を生成。最初のフレームを条件画像とし、3D VAEで圧縮した潜在表現を利用。CLIP画像エンコーダを用いて特徴を抽出し、DiTモデルへ適用することで高精度な動画生成を実現。
1.5億本の動画と100億枚の画像を活用。内部の著作権データと公開データを組み合わせ、4ステップのデータクリーニングを実施。視覚品質と動作品質を重視したデータ選定を行い、学習効率を向上。
異なるGPU環境でWan2.1の計算効率をテスト。処理時間とメモリ使用量を分析し、一般的なGPU環境でも高品質な動画生成が可能であることを証明。
包括的な技術レポートの公開を予定。拡散変換器(DiT)の進化と3D VAEの最適化を通じ、さらなる性能向上を目指します。
Alibaba Cloud Japan - August 7, 2024
Fuji - February 25, 2025
Alibaba Cloud Native Community - February 26, 2025
Regional Content Hub - July 7, 2025
Alibaba Cloud Native Community - February 26, 2025
Regional Content Hub - January 19, 2024
Tongyi Qianwen (Qwen)
Top-performance foundation models from Alibaba Cloud
Learn More
Container Compute Service (ACS)
A cloud computing service that provides container compute resources that comply with the container specifications of Kubernetes
Learn More
Container Service for Kubernetes
Alibaba Cloud Container Service for Kubernetes is a fully managed cloud container management service that supports native Kubernetes and integrates with other Alibaba Cloud products.
Learn More
Alibaba Cloud for Generative AI
Accelerate innovation with generative AI to create new business success
Learn More