すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:ビデオの生成と編集

最終更新日:Jun 24, 2026

Text-to-Video、Image-to-Video、ビデオ編集に適したモデルを選択します。

Text-to-Video

テキストプロンプトから音声付きのビデオを生成します。happyhorse-1.1-t2v を推奨します。1080P の解像度と最長 15 秒のクリップに対応しています。

カスタム音声ファイルの入力

ナレーションや BGM などのカスタム音声ファイルを提供する必要がある場合は、wan2.7-t2v-2026-04-25 を使用します。

Image-to-Video

静止画から動的なビデオを作成します。ファーストフレーム Image-to-Video の場合は happyhorse-1.1-i2v を使用します。ファースト/ラストフレームのスティッチングの場合は wan2.7-i2v-2026-04-25 を使用します。

ファーストフレーム Image-to-Video

1 枚の画像からビデオを生成します。音声、1080P、3~15 秒をサポートする happyhorse-1.1-i2v を推奨します。カスタム音声ファイルを提供する必要がある場合は、wan2.7-i2v-2026-04-25 を使用します。

長尺ビデオ向けのファースト/ラストフレームのスティッチング

wan2.7-i2v-2026-04-25 のようなファースト/ラストフレームモデルを使用して、複数のクリップを結合します。あるクリップの最終フレームを次のクリップの最初のフレームとして設定すると、シームレスなトランジションが作成されます。これは、ナラティブ、プロダクトデモ、チュートリアルなどに最適です。

リファレンス Image-to-Video

リファレンス画像を使用して、シーン間でキャラクターの一貫性を維持します。happyhorse-1.1-r2v を推奨します。音声を定義するためにカスタム音声ファイルを提供する必要がある場合や、ビデオをリファレンス主題として使用する場合は、wan2.7-r2v を使用します。

ビデオ編集

テキスト命令を使用して既存のビデオを編集し、スタイル変換、要素の置き換え、その他の操作を行います。happyhorse-1.0-video-edit を推奨します。効果のレプリケーションやカメラワークのレプリケーションには、wan2.7-videoedit を使用します。

キャラクターアニメーション

モーション駆動のキャラクターアニメーション

リファレンスビデオから静止画のキャラクターにモーションを転送するには、wan2.2-animate-move を使用します。背景は変更されません。プロモード (wan-pro) は実写映像に近い結果を生成し、標準モード (wan-std) はより高速でコスト効率に優れています。

ビデオ内のキャラクター置換

ビデオ内のキャラクターをソース画像のキャラクターに置き換えるには、wan2.2-animate-mix を使用します。このモデルもプロモードと標準モードをサポートしています。

推奨モデル

モデル ID

ユースケース

最大解像度

最大持続時間

happyhorse-1.1-t2v

Text-to-Video

720P, 1080P

3~15 秒

wan2.7-t2v-2026-04-25

Text-to-Video、カスタム音声ファイル

720P, 1080P

2~15 秒

happyhorse-1.1-i2v

ファーストフレーム Image-to-Video

720P, 1080P

3~15 秒

wan2.7-i2v-2026-04-25

ファーストフレーム、ファースト/ラストフレーム、ビデオ継続

720P, 1080P

2~15 秒

happyhorse-1.1-r2v

リファレンス Image-to-Video

720P, 1080P

3~15 秒

wan2.7-r2v

リファレンス画像および Video-to-Video

720P, 1080P

2~10 秒

happyhorse-1.0-video-edit

ビデオ編集

720P, 1080P

3~15 秒

wan2.7-videoedit

ビデオ編集、効果のレプリケーション、カメラワークのレプリケーション

720P, 1080P

2~10 秒

wan2.2-animate-move

静的なキャラクターへのモーション転送

720P

2~30 秒

wan2.2-animate-mix

ビデオ内のキャラクターを置換

720P

2~30 秒

すべてのモデル

HappyHorse 1.1

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

happyhorse-1.1-t2v

Text-to-Video

音声

720P, 1080P。3~15 秒。24 fps, MP4

happyhorse-1.1-i2v

ファーストフレーム Image-to-Video

音声

720P, 1080P。3~15 秒。24 fps, MP4

happyhorse-1.1-r2v

リファレンス Image-to-Video

音声

720P, 1080P。3~15 秒。24 fps, MP4

HappyHorse 1.0

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

happyhorse-1.0-t2v

Text-to-Video

音声

720P, 1080P。3~15 秒。24 fps, MP4

happyhorse-1.0-i2v

ファーストフレーム Image-to-Video

音声

720P, 1080P。3~15 秒。24 fps, MP4

happyhorse-1.0-r2v

リファレンス Image-to-Video

音声

720P, 1080P。3~15 秒。24 fps, MP4

happyhorse-1.0-video-edit

ビデオ編集

音声

720P, 1080P。3~15 秒。24 fps, MP4

Wan 2.7

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

wan2.7-t2v

Text-to-Video

音声同期、マルチショットナラティブ

720P, 1080P。2~15 秒。30 fps, MP4

wan2.7-t2v-2026-04-25

Text-to-Video

音声同期、マルチショットナラティブ

720P, 1080P。2~15 秒。30 fps, MP4

wan2.7-i2v

Image-to-Video

ファーストフレーム、ファースト/ラストフレーム、ビデオ継続、音声駆動

720P, 1080P。2~15 秒。30 fps, MP4

wan2.7-i2v-2026-04-25

Image-to-Video

ファーストフレーム、ファースト/ラストフレーム、ビデオ継続、音声駆動

720P, 1080P。2~15 秒。30 fps, MP4

wan2.7-r2v

ビデオリファレンス

マルチキャラクター、ImageN/VideoN リファレンスフォーマット

720P, 1080P。2~10 秒。30 fps, MP4

wan2.7-videoedit

ビデオ編集

命令ベースの編集、スタイル変換

720P, 1080P。2~10 秒。30 fps, MP4

Wan 2.6

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

wan2.6-t2v

Text-to-Video

音声同期、マルチショットナラティブ

720P, 1080P。2~15 秒。30 fps, MP4

wan2.6-i2v

Image-to-Video

音声同期、マルチショットナラティブ

720P, 1080P。2~15 秒。30 fps, MP4

wan2.6-i2v-flash

Image-to-Video

音声、マルチショット、高速生成

720P, 1080P。2~15 秒。30 fps, MP4

wan2.6-r2v

ビデオリファレンス

音声同期、マルチキャラクター、ナラティブ

720P, 1080P。2~10 秒。30 fps, MP4

wan2.6-r2v-flash

ビデオリファレンス

マルチキャラクター、高速生成

720P, 1080P。2~10 秒。30 fps, MP4

wan2.6-t2v-us

Text-to-Video

音声同期、マルチショットナラティブ、米国デプロイメント範囲向け

720P, 1080P。2~15 秒。30 fps, MP4

wan2.6-i2v-us

Image-to-Video

音声同期、マルチショットナラティブ、米国デプロイメント範囲向け

720P, 1080P。2~15 秒。30 fps, MP4

Wan 2.5

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

wan2.5-t2v-preview

Text-to-Video

音声同期

480P, 720P, 1080P。5 秒, 10 秒。30 fps, MP4

wan2.5-i2v-preview

Image-to-Video

音声同期

480P, 720P, 1080P。5 秒, 10 秒。30 fps, MP4

Wan 2.2

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

wan2.2-t2v-plus

Text-to-Video

音声なし

480P, 1080P。5 秒。30 fps, MP4

wan2.2-i2v-plus

Image-to-Video

音声なし

480P, 1080P。5 秒。30 fps, MP4

wan2.2-i2v-flash

Image-to-Video

音声なし、2.1 より 50% 高速

480P, 720P, 1080P。5 秒。30 fps, MP4

wan2.2-kf2v-flash

ファースト/ラストフレーム

音声なし

480P, 720P, 1080P。5 秒。30 fps, MP4

wan2.2-animate-move

キャラクターアニメーション

wan-std / wan-pro モード

720P。2~30 秒。15/25 fps。MP4

wan2.2-animate-mix

キャラクター置換

wan-std / wan-pro モード

720P。2~30 秒。15/25 fps。MP4

Wan 2.1 (Wan 2.7 を推奨)

以下のモデルは、国際および中国本土デプロイメント範囲で利用可能です。

モデル ID

タイプ

機能

出力仕様

wan2.1-t2v-plus

Text-to-Video

音声なし

720P。5 秒。30 fps, MP4

wan2.1-t2v-turbo

Text-to-Video

音声なし

480P, 720P。5 秒。30 fps, MP4

wan2.1-i2v-plus

Image-to-Video

音声なし

720P。5 秒。30 fps, MP4

wan2.1-i2v-turbo

Image-to-Video

音声なし

480P, 720P。3~5 秒。30 fps, MP4

wan2.1-kf2v-plus

ファースト/ラストフレーム

音声なし

720P。5 秒。30 fps, MP4

wan2.1-vace-plus

ビデオ編集

音声なし

720P。最大 5 秒。30 fps, MP4