×
Community Blog Wan2.1 - オープンソースの最先端動画生成モデル

Wan2.1 - オープンソースの最先端動画生成モデル

Wan2.1は、動画生成に特化したオープンソースの最先端モデル。一般向けGPUでも動作し、Text-to-VideoやImage-to-Videoなど多様なタスクに対応。独自の3D VAEと拡散DiTを採用し、高速かつ高品質な動画生成を実現。

本記事は以下の公式ブログを参考にしています。
https://wanxai.com/

Wan2.1 - オープンソースの最先端動画生成モデル

Wan2.1は、動画生成の可能性を大きく広げるオープンソースの動画基盤モデル。複数のタスクに対応し、高性能ながら一般的なGPUでも動作可能な設計が特徴。

特徴

最先端の性能

既存のオープンソースモデルや商用モデルを凌駕する動画生成能力を持つ。

一般向けGPUに対応

T2V-1.3Bモデルは8.19GBのVRAMで動作し、RTX 4090では480Pの5秒動画を約4分で生成可能。

多様なタスクをサポート

テキストや画像をもとにした動画生成、動画編集、テキスト画像生成、動画音声変換などに対応。

中国語・英語のテキスト動画生成が可能

テキストの動画内埋め込みに対応し、実用性が向上。

高性能なVideo VAE

1080Pの動画を効率よくエンコード・デコードし、時間情報を維持した生成を実現。

モデル概要

Wan2.1-I2V-14B

480Pおよび720Pの動画生成に対応
閉源モデルを超える最先端の性能
複雑な視覚シーンや動きを忠実に再現

Wan2.1-T2V-14B

480P / 720Pの高品質な動画を生成
中国語・英語のテキストを動画内に埋め込むことが可能

Wan2.1-T2V-1.3B

480P動画を8.19GBのVRAMで生成可能
一般向けGPUで動作し、RTX 4090で5秒動画を約4分で生成

技術詳細

3D変分オートエンコーダ (3D VAE)

動画生成のために最適化された3D因果VAEを採用。時間情報の圧縮効率を向上させ、メモリ使用量を削減。長時間の動画にも対応できる特徴キャッシュ機構を導入し、GPUメモリの負荷を抑えながら高性能な処理を実現。

実験では、同じハードウェア環境(A800 GPU)で、従来のSOTA手法(HunYuanVideo)に比べて2.5倍の速度で動画を復元。

拡散DiTによる動画生成

Flow Matchingフレームワークを採用した拡散変換器(DiT)を活用。T5 Encoderを利用し、テキストをモデルに効果的に埋め込む。SiLU関数を用いたパラメータ調整により、14B・1.3Bモデルで高い性能を発揮。

モデルスケーリングと学習効率

学習時にはFSDPとContext Parallelを併用し、モデルの並列処理を最適化。推論時にはFSDPによるシャーディングを活用し、大規模モデルの処理を効率化。14Bモデルでは2D Context Parallelを使用し、ほぼ線形なスピード向上を実現。

タスク別機能

Image-to-Video (I2V)

画像を元に動画を生成。最初のフレームを条件画像とし、3D VAEで圧縮した潜在表現を利用。CLIP画像エンコーダを用いて特徴を抽出し、DiTモデルへ適用することで高精度な動画生成を実現。

データセット

1.5億本の動画と100億枚の画像を活用。内部の著作権データと公開データを組み合わせ、4ステップのデータクリーニングを実施。視覚品質と動作品質を重視したデータ選定を行い、学習効率を向上。

SOTAとの比較

異なるGPU環境でWan2.1の計算効率をテスト。処理時間とメモリ使用量を分析し、一般的なGPU環境でも高品質な動画生成が可能であることを証明。

今後の展望

包括的な技術レポートの公開を予定。拡散変換器(DiT)の進化と3D VAEの最適化を通じ、さらなる性能向上を目指します。

0 0 0
Share on

Fuji

6 posts | 0 followers

You may also like

Comments

Fuji

6 posts | 0 followers

Related Products