本記事は以下の公式ブログを参考にしています。
https://wanxai.com/
Wan2.1は、動画生成の可能性を大きく広げるオープンソースの動画基盤モデル。複数のタスクに対応し、高性能ながら一般的なGPUでも動作可能な設計が特徴。
既存のオープンソースモデルや商用モデルを凌駕する動画生成能力を持つ。
T2V-1.3Bモデルは8.19GBのVRAMで動作し、RTX 4090では480Pの5秒動画を約4分で生成可能。
テキストや画像をもとにした動画生成、動画編集、テキスト画像生成、動画音声変換などに対応。
テキストの動画内埋め込みに対応し、実用性が向上。
1080Pの動画を効率よくエンコード・デコードし、時間情報を維持した生成を実現。
480Pおよび720Pの動画生成に対応
閉源モデルを超える最先端の性能
複雑な視覚シーンや動きを忠実に再現
480P / 720Pの高品質な動画を生成
中国語・英語のテキストを動画内に埋め込むことが可能
480P動画を8.19GBのVRAMで生成可能
一般向けGPUで動作し、RTX 4090で5秒動画を約4分で生成
動画生成のために最適化された3D因果VAEを採用。時間情報の圧縮効率を向上させ、メモリ使用量を削減。長時間の動画にも対応できる特徴キャッシュ機構を導入し、GPUメモリの負荷を抑えながら高性能な処理を実現。
実験では、同じハードウェア環境(A800 GPU)で、従来のSOTA手法(HunYuanVideo)に比べて2.5倍の速度で動画を復元。
Flow Matchingフレームワークを採用した拡散変換器(DiT)を活用。T5 Encoderを利用し、テキストをモデルに効果的に埋め込む。SiLU関数を用いたパラメータ調整により、14B・1.3Bモデルで高い性能を発揮。
学習時にはFSDPとContext Parallelを併用し、モデルの並列処理を最適化。推論時にはFSDPによるシャーディングを活用し、大規模モデルの処理を効率化。14Bモデルでは2D Context Parallelを使用し、ほぼ線形なスピード向上を実現。
画像を元に動画を生成。最初のフレームを条件画像とし、3D VAEで圧縮した潜在表現を利用。CLIP画像エンコーダを用いて特徴を抽出し、DiTモデルへ適用することで高精度な動画生成を実現。
1.5億本の動画と100億枚の画像を活用。内部の著作権データと公開データを組み合わせ、4ステップのデータクリーニングを実施。視覚品質と動作品質を重視したデータ選定を行い、学習効率を向上。
異なるGPU環境でWan2.1の計算効率をテスト。処理時間とメモリ使用量を分析し、一般的なGPU環境でも高品質な動画生成が可能であることを証明。
包括的な技術レポートの公開を予定。拡散変換器(DiT)の進化と3D VAEの最適化を通じ、さらなる性能向上を目指します。
Alibaba Cloud Japan - August 7, 2024
Fuji - February 25, 2025
Alibaba Cloud Native Community - February 26, 2025
Regional Content Hub - July 7, 2025
Alibaba Cloud Native Community - February 26, 2025
Regional Content Hub - January 19, 2024
Tongyi Qianwen (Qwen)
Top-performance foundation models from Alibaba Cloud
Learn More
Alibaba Cloud for Generative AI
Accelerate innovation with generative AI to create new business success
Learn More
AI Acceleration Solution
Accelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn More
Platform For AI
A platform that provides enterprise-level data modeling services based on machine learning algorithms to quickly meet your needs for data-driven operations.
Learn More