すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:ビデオ生成

最終更新日:Mar 22, 2026

Alibaba Cloud Model Studio では、汎用の作成(テキストから動画へ、画像から動画へ、リファレンス動画から動画へ、およびビデオ編集)および専門的な用途(デジタルヒューマンの口パク同期、image-to-action、ビデオキャラクタースワップ、絵文字作成)向けのビデオ生成モデルを提供しています。

モデル概要

デプロイモード

モード比較

グローバル

モデル推論に使用される計算リソースはグローバルにスケジュールされます。

インターナショナル

モデル推論に使用される計算リソースは、中国本土を除くグローバルでスケジュールされます。

米国

モデル推論に使用される計算リソースは米国に限定されます。

中国本土

モデル推論に使用される計算リソースは中国本土に限定されます。

リージョン

Virginia

シンガポール

バージニア州

北京市

対応モデル

Wanxiang - テキストから動画へ

Wanxiang - 画像から動画へ(最初のフレームに基づく)

Wanxiang - リファレンス動画から動画へ

Wanxiang - テキストから動画へ

Wanxiang - 画像から動画へ(最初のフレームに基づく)

Wanxiang - 画像から動画へ(最初と最後のフレームに基づく)

Wanxiang - リファレンス動画から動画へ

Wanxiang - 汎用ビデオ編集

Wanxiang - image-to-action

Wanxiang - ビデオキャラクタースワップ

Wanxiang - テキストから動画へ

Wanxiang - 画像から動画へ(最初のフレームに基づく)

Wanxiang - テキストから動画へ

Wanxiang - 画像から動画へ(最初のフレームに基づく)

Wanxiang - 画像から動画へ(最初と最後のフレームに基づく)

Wanxiang - リファレンス動画から動画へ

Wanxiang - 汎用ビデオ編集

Wanxiang - デジタルヒューマン

Wanxiang - image-to-action

Wanxiang - ビデオキャラクタースワップ

AnimateAnyone

EMO

LivePortrait

絵文字

VideoRetalk

ビデオスタイル変換

モデル選択

  • 汎用ビデオ生成

  • デジタルヒューマンの口パク同期:静止画像をアニメーション化して話す、歌う、またはナレーションを行う機能です。被写体の顔、頭部、および身体のみが静的背景に対して動き、その他の要素は固定されます。

    • 最も自然な結果(表情、頭部および身体の動きを含む)を得るには、Wanxiang - デジタルヒューマン を使用します。このモデルは EMO を置き換えます。

    • ニュース報道など、20 秒を超える長尺の動画でシンプルな頭部の動きを必要とする場合は、LivePortrait を使用します。

  • ビデオモーション転送:リファレンス動画を使用して画像内の人物をアニメーション化し、背景は静的のままに保つ場合、Wanxiang - image-to-action を使用します。

  • ビデオキャラクタースワップ:ビデオ内のキャラクターをリファレンス画像から取得したキャラクターに置き換え、元の背景を保持する場合、Wanxiang - ビデオキャラクタースワップ を使用します。

  • ダンス置換:ビデオ内のダンサーを画像から取得したキャラクターに置き換えます。最高品質の結果を得るには、Wanxiang - image-to-actionWanxiang - ビデオキャラクタースワップ の併用を推奨します。コスト効率を重視する場合は、AnimateAnyone を使用します。

  • ビデオリップダブリング:既存の動画の口の動きを新しい音声に合わせて調整するには、VideoRetalk を使用します。

  • 絵文字作成:固定スタイルのテンプレートを使用して絵文字を作成するには、絵文字 を使用します。

  • ビデオスタイル変換:固定テンプレートからスタイルを適用するには、ビデオスタイル変換 を使用します。プロンプトを使用して自由にスタイルを定義するには、Wanxiang - 汎用ビデオ編集 を使用します。

  • ビデオ編集:以下のユースケースには、Wanxiang - 汎用ビデオ編集 を使用します。

    • ローカルビデオ編集:ビデオ内の被写体や衣装を置き換えたり、通行人を削除したりします。

    • ビデオ拡張(アウトペインティング):ビデオの持続時間を延長します(例:1 秒から 5 秒へ)。

    • ビデオアウトペインティング:ビデオのアスペクト比を変更します(例:横長から縦長へ)またはフレーム境界を拡大します。

    • マルチイメージリファレンス生成:背景画像と被写体画像を組み合わせてビデオを生成します。

対応モデル

Wan - テキストから動画へ

テキストプロンプトから動画を生成します。 テキストと音声入力をサポートし、映画のようなマルチショット動画を作成します。

API リファレンス | モデル料金 | オンラインで試す:シンガポール米国 (バージニア)中国 (北京)

グローバル

グローバルデプロイモード」では、エンドポイントおよびデータストレージは米国 (バージニア) リージョンに配置され、モデル推論の計算リソースはグローバルに動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-t2v 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、音声

解像度オプション:720P、1080P

動画持続時間:5 秒、10 秒、15 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論リソースは中国本土を除くグローバルで動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-t2v 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、音声

解像度オプション:720P、1080P

動画持続時間:[2 秒, 15 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.5-t2v-preview 推奨

音声付き動画

音声・動画同期

テキスト、音声

解像度オプション:480P、720P、1080P

動画持続時間:5 秒、10 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.2-t2v-plus

音声なし動画

モデル 2.1 と比較して、全体的な安定性および成功率が向上しています。

テキスト

解像度オプション:480P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.1-t2v-turbo

音声なし動画

テキスト

解像度オプション:480P、720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.1-t2v-plus

音声なし動画

テキスト

解像度オプション:720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

米国

米国デプロイモード」では、アクセスポイントおよびデータストレージは米国 (バージニア) リージョンに配置され、モデル推論リソースは米国に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-t2v-us 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、音声

解像度オプション:720P、1080P

動画持続時間:5 秒、10 秒、15 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論リソースは中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-t2v 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、音声

解像度オプション:720P、1080P

動画持続時間:[2 秒, 15 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.5-t2v-preview 推奨

音声付き動画

音声・動画同期

テキスト、音声

解像度オプション:480P、720P、1080P

動画持続時間:5 秒、10 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.2-t2v-plus

音声なし動画

モデル 2.1 と比較して、安定性および成功率が包括的に向上しています。

テキスト

解像度オプション:480P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wanx2.1-t2v-turbo

音声なし動画

テキスト

解像度オプション:480P、720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wanx2.1-t2v-plus

音声なし動画

テキスト

解像度オプション:720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

入力プロンプト

出力動画(wan2.6、マルチショット動画)

ローアングルからのミディアムクローズアップショット、暖色系の色調、混合照明(デスクランプからの実用光と窓からの曇り空の光が混ざり合う)、サイドライティング、中央構図。クラシックな探偵事務所で、木製の本棚には古い事件ファイルと灰皿が並んでいます。緑色のデスクランプが、机の中央に広げられた事件ファイルを照らしています。暗褐色のトレンチコートと薄灰色のフェドーラ帽をかぶったキツネが革張りの椅子に座り、その毛皮は深紅色で、尾は軽く端に置かれ、指はゆっくりと黄ばんだページをめくっています。外では、青空の下で絶え間なく小雨が降り、ガラスに曲がりくねった筋を残しています。彼はゆっくりと頭を上げ、耳をわずかに動かし、琥珀色の瞳でカメラをまっすぐに見つめ、口をはっきりと動かしながら、滑らかで皮肉な声でこう言います:「事件は冷え切っていた、冬の魚よりも冷たく。しかし、どんな鶏にも秘密がある。そして私は、それを見つけ出すつもりだった」

Wanx 画像から動画へ:最初のフレーム

指定された最初のフレーム画像から動画を生成します。 このモデルは、テキスト、最初のフレーム画像、および音声を入力として受け取り、映画のようなマルチショット動画を生成します。

API リファレンス | モデル料金 | オンラインで試す:シンガポール米国 (バージニア)中国 (北京)

グローバル

グローバルデプロイモード」では、エンドポイントおよびデータストレージは米国 (バージニア) リージョンに配置され、モデル推論の計算リソースはグローバルに動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-i2v 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、音声

解像度オプション:720P、1080P

動画持続時間:5 秒、10 秒、15 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除くグローバルで動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-i2v-flash 推奨

音声付き動画、音声なし動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、音声

解像度オプション:720P、1080P

動画持続時間:[2 秒, 15 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.6-i2v 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、音声

解像度オプション:720P、1080P

動画持続時間:[2 秒, 15 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.5-i2v-preview

音声付き動画

音声・動画同期

テキスト、画像、音声

解像度オプション:480P、720P、1080P

動画持続時間:5 秒、10 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.2-i2v-flash

音声なし動画

モデル 2.1 より 50% 高速

テキスト、画像

解像度オプション:480P、720P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.2-i2v-plus

音声なし動画

このモデルは、モデル 2.1 と比較して安定性および成功率において包括的な向上を実現しています。

テキスト、画像

解像度オプション:480P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.1-i2v-plus

音声なし動画

テキスト、画像

解像度オプション:720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.1-i2v-turbo

音声なし動画

テキスト、画像

解像度オプション:480P、720P

動画持続時間:3 秒、4 秒、5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

米国

米国デプロイモード」では、アクセスポイントおよびデータストレージは米国 (バージニア) リージョンに配置され、モデル推論の計算リソースは米国に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-i2v-us 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、音声

解像度オプション:720P、1080P

動画持続時間:5 秒、10 秒、15 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-i2v-flash 推奨

音声付き動画、音声なし動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、音声

解像度オプション:720P、1080P

動画持続時間:[2 秒, 15 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.6-i2v 推奨

音声付き動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、音声

解像度オプション:720P、1080P

動画持続時間:[2 秒, 15 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.5-i2v-preview

音声付き動画

音声・動画同期

テキスト、画像、音声

解像度オプション:480P、720P、1080P

動画持続時間:5 秒、10 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.2-i2v-flash

音声なし動画

モデル 2.1 より 50% 高速

テキスト、画像

解像度オプション:480P、720P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wan2.2-i2v-plus

音声なし動画

モデル 2.1 と比較して、安定性および成功率が包括的に向上しています。

テキスト、画像

解像度オプション:480P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wanx2.1-i2v-plus

音声なし動画

テキスト、画像

解像度オプション:720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

wanx2.1-i2v-turbo

音声なし動画

テキスト、画像

解像度オプション:480P、720P

動画持続時間:3 秒、4 秒、5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング) 

入力プロンプト

入力最初のフレーム画像および音声

出力動画(wan2.6、マルチショット動画)

都市ファンタジー芸術のシーン。ダイナミックなグラフィティアートのキャラクター。スプレー塗装で描かれた少年がコンクリートの壁から生き返ります。彼は高速で英語のラップをしながら、クラシックでエネルギッシュなラッパーのポーズをとります。シーンは夜の都市鉄道橋の下で展開され、街灯からの光がシネマティックな雰囲気を演出し、高いエネルギーと驚くほど精巧なディテールを実現します。動画の音声は、彼のラップのみで構成され、その他の会話やノイズはありません。

rap-转换自-png

入力音声

Wanx 画像から動画へ:最初と最後のフレーム

指定された最初のフレーム画像と最後のフレーム画像の間でスムーズにトランジションする動画を生成します。 このモデルは、テキスト、最初と最後のフレーム画像、および音声を入力として受け取り、映画のようなマルチショット動画を生成します。

API リファレンス | モデル料金 | オンラインで試す

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除くグローバルで動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.2-kf2v-flash 推奨

音声なし動画

モデル 2.1 と比較して、全体的な安定性および成功率が向上しています。

テキスト、画像

解像度オプション:480P、720P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.1-kf2v-plus

音声なし動画

テキスト、画像

解像度オプション:720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.2-kf2v-flash 推奨

音声なし動画

モデル 2.1 と比較して、全体的な安定性および成功率が向上しています。

テキスト、画像

解像度オプション:480P、720P、1080P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

wanx2.1-kf2v-plus

音声なし動画

テキスト、画像

解像度オプション:720P

動画持続時間:5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

入力最初のフレーム画像

入力最後のフレーム画像

入力プロンプト

出力動画

first_frame

last_frame

フォトリアリスティックスタイル。小さな黒猫が空を好奇の目で見上げています。カメラはアイレベルから始まり、徐々に上昇し、最後に猫の好奇心に満ちた視線を上から捉えるショットで終わります。

Wanxiang - リファレンス動画から動画へ

指定された動画のキャラクターにアクションを実行させます。動画とテキストプロンプトを入力して、キャラクターの一貫性を保った出力動画を生成します。

API リファレンス | モデル料金

グローバル

グローバルデプロイモード」では、エンドポイントおよびデータストレージは米国 (バージニア) リージョンに配置され、モデル推論の計算リソースはグローバルに動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-r2v 推奨

音声付き動画

単一または複数のキャラクターから動画へ

マルチショットナラティブ、音声・動画同期

テキスト、動画

解像度オプション:720P、1080P

動画持続時間:5 秒、10 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置されます。モデル推論の計算リソースは、中国本土を除くグローバルで動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-r2v-flash 推奨

音声あり/なし動画

単一または複数のキャラクターから動画へ

マルチショットナラティブ、音声・動画同期

高速でコスト効率が高い

テキスト、画像、動画

解像度オプション:720P、1080P

動画持続時間:[2 秒, 10 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.6-r2v

音声付き動画

マルチロールリファレンス動画

マルチショットナラティブ、音声・動画同期

テキスト、画像、動画

解像度オプション:720P、1080P

動画持続時間:[2 秒, 10 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置されます。モデル推論の計算リソースは中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.6-r2v-flash 推奨

音声あり/なし動画

単一または複数のキャラクターから動画へ

マルチショットナラティブ、音声・動画同期

高速でコスト効率が高い

テキスト、画像、動画

解像度オプション:720P、1080P

動画持続時間:[2 秒, 10 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

wan2.6-r2v

音声付き動画

単一または複数のキャラクターから動画へ

マルチショットナラティブ、音声・動画同期

テキスト、画像、動画

解像度オプション:720P、1080P

動画持続時間:[2 秒, 10 秒](整数)

固定仕様:30 fps、MP4(H.264 エンコーディング)

入力リファレンス動画 1(ロール:少女)

入力リファレンス動画 2(ロール:目覚まし時計)

入力プロンプト

出力動画(マルチロール対話)

キャラクター1 がキャラクター2 に「明日の朝は頼んだよ!」と言います。キャラクター2 は「任せて!」と答えます。

Wanxiang - 汎用ビデオ編集

テキスト、画像、動画などのマルチモーダル入力をサポートする汎用ビデオ編集モデルで、さまざまなビデオ生成および編集タスクに対応します。

API リファレンス | モデル料金

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置されます。システムは、中国本土を除くグローバルでモデル推論の計算リソースを動的にスケジュールします。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.1-vace-plus

音声なし動画

マルチイメージリファレンス、ビデオ再描画、ローカル編集、ビデオ拡張、ビデオフレーム拡張

テキスト、画像、動画

解像度オプション:720P

動画持続時間:最大 5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置されます。モデル推論の計算リソースは中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wanx2.1-vace-plus

音声なし動画

マルチイメージリファレンス、ビデオ再描画、ローカル編集、ビデオ拡張、ビデオフレーム拡張

テキスト、画像、動画

解像度オプション:720P

動画持続時間:最大 5 秒

固定仕様:30 fps、MP4(H.264 エンコーディング)

  • 特徴 1:マルチイメージリファレンス

    リファレンス 1(エンティティ)

    リファレンス 2(バックグラウンド)

    入力プロンプト

    出力動画

    image

    image

    動画では、少女が古代の霧深い森の奥から優雅に歩いてきます。彼女の足取りは軽く、カメラは彼女の軽快な動きを一つ一つ捉えます。彼女が立ち止まり、緑豊かな森を見渡すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。このシーンは、彼女と自然との美しい出会いを記録しています。

  • 特徴 2:ビデオ再描画

    入力動画

    入力プロンプト

    出力動画

    動画には、紳士が運転する黒いスチームパンク風の車が映し出され、歯車や銅管で装飾されています。背景はレトロな要素を持つ蒸気動力のキャンディー工場で、ヴィンテージで楽しいシーンを演出しています。

  • 特徴 3:ローカルビデオ編集

    入力動画

    入力マスク画像(白色領域は編集領域を示します)

    入力プロンプト

    出力動画

    mask

    動画には、パリ風のフレンチカフェが映し出されています。スーツを着たライオンが優雅にコーヒーを飲んでいます。コーヒーカップを持ち、満足そうな表情で飲んでいます。カフェは上品に装飾されています。柔らかな色調と暖かい光がライオンを照らしています。

  • 特徴 4:ビデオ拡張

    入力最初のビデオセグメント(1 秒)

    入力プロンプト

    出力動画(拡張された動画は 5 秒)

    サングラスをかけた犬が路上でスケートボードをしています。3D カートゥーンスタイル。

  • 特徴 5:ビデオフレーム拡張

    入力動画

    入力プロンプト

    出力動画

    優雅な女性が情熱的にバイオリンを弾いています。彼女の後ろにはフルオーケストラがいます

Wanxiang - デジタルヒューマン

説明

中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

デジタルヒューマンの口パク同期は、画像内の人物や漫画のキャラクターをアニメーション化して、話したり、歌ったり、ナレーションしたり、パフォーマンスしたりします。 画像と音声ファイルを提供すると、モデルは自動的に同期された口の動き、表情、頭部および身体の動きを持つ動画を生成します。

画像検出 API リファレンスビデオ生成 API リファレンスモデル料金

モデル

特徴

入力モダリティ

出力詳細

wan2.2-s2v-detect

画像検出

画像

出力検出ステータス:合格または不合格

wan2.2-s2v

ビデオ生成

音声付き動画

画像、音声

解像度オプション:480P、720P

動画持続時間:最大 20 秒(音声の持続時間に一致)

固定仕様:

  • 480P:16 fps、MP4(H.264 エンコーディング)

  • 720P:30 fps、MP4(H.264 エンコーディング)

入力例(人物画像 + 音声)

出力動画(口パク同期)

mix_input_image

入力音声:

Wanxian - 画像からアクションへ

リファレンス動画の動きを使用して画像から人物をアニメーション化します。 画像と動画を提供すると、モデルはリファレンス動画の動きを人物に適用し、元の画像の背景を静的に保った動画を生成します。

API リファレンスモデル料金

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除くグローバルで動的にスケジュールされます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.2-animate-move

音声あり/なし動画(入力動画に依存)

  • 標準モード wan-std:高速生成でコスト効率が高い

  • プロフェッショナルモード wan-pro:よりリアルなショットに近い結果

画像、動画

解像度オプション:720P

動画持続時間:2 秒 < 持続時間 < 30 秒

固定仕様:

  • 標準モード wan-std:15 fps、MP4(H.264 エンコーディング)

  • プロフェッショナルモード wan-pro:25 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.2-animate-move

音声あり/なし動画(入力動画に依存)

  • 標準モード wan-std:高速生成でコスト効率が高い

  • プロフェッショナルモード wan-pro:よりリアルなショットに近い結果

画像、動画

解像度オプション:720P

動画持続時間:2 秒 < 持続時間 < 30 秒

仕様:

  • 標準モード wan-std:15 fps、MP4(H.264 エンコーディング)

  • プロフェッショナルモード wan-pro:25 fps、MP4(H.264 エンコーディング)

入力人物画像

入力リファレンス動画

出力動画(標準モード wan-std

出力動画(プロフェッショナルモード wan-pro

move_input_image

Wanxiang - ビデオキャラクタースワップ

動画内のキャラクターをリファレンス画像のキャラクターに置き換えます。 ソース動画とリファレンス画像を提供すると、モデルは元の背景を保持した出力動画を生成します。この機能は、顔交換や完全なキャラクター置換などのユースケースに最適です。

API リファレンスモデル料金

インターナショナル

インターナショナルデプロイモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置されます。システムは、中国本土を除くグローバルでモデル推論の計算リソースを動的にスケジュールします。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.2-animate-mix

音声あり/なし動画(入力動画に依存)

  • 標準モード wan-std:高速生成でコスト効率が高い

  • プロフェッショナルモード wan-pro:よりリアルなショットに近い結果

画像、動画

解像度オプション:720P

動画持続時間:2 秒 < 持続時間 < 30 秒

固定仕様:

  • 標準モード wan-std:15 fps、MP4(H.264 エンコーディング)

  • プロフェッショナルモード wan-pro:25 fps、MP4(H.264 エンコーディング)

中国本土

中国本土デプロイモード」では、アクセスポイントおよびデータストレージは中国 (北京) リージョンに配置されます。モデル推論の計算は中国本土に限定されます。

モデル

特徴

入力モダリティ

出力動画仕様

wan2.2-animate-mix

音声あり/なし動画(入力動画に依存)

  • 標準モード wan-std:高速生成でコスト効率が高い

  • プロフェッショナルモード wan-pro:よりリアルなショットに近い結果

画像、動画

解像度オプション:720P

動画持続時間:2 秒 < 持続時間 < 30 秒

固定仕様:

  • 標準モード wan-std:15 fps、MP4(H.264 エンコーディング)

  • プロフェッショナルモード wan-pro:25 fps、MP4(H.264 エンコーディング)

入力動画

交換する人物の入力画像

出力動画(標準モード wan-std

出力動画(プロフェッショナルモード wan-pro

mix_input_image

AnimateAnyone

説明
  • 中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

  • Wanxiang - image-to-action および Wanxiang - ビデオキャラクタースワップ を AnimateAnyone の代わりに使用することを推奨します。これらのモデルはより高品質な結果を提供しますが、AnimateAnyone はよりコスト効率の高いオプションです。

ダンスに特化して設計されたこのモデルは、動画内のダンサーを画像内の人物に置き換えます。 画像と動画を提供して、2 つの方法で出力動画を生成します:1. 画像の背景を保持する。2. 動画の背景を保持する。

画像検出 API リファレンス | アクションテンプレート生成 API リファレンス | ビデオ生成 API リファレンスモデル料金

モデル

特徴

入力モダリティ

出力詳細

animate-anyone-detect-gen2

画像検出

画像

出力検出ステータス:合格または不合格

animate-anyone-template-gen2

ダンス動画テンプレート生成

ダンス動画からアクションテンプレートを抽出します。

動画

ダンスアクションテンプレート ID を出力

animate-anyone-gen2

ビデオ生成

音声なし動画

画像、動画、ダンスアクションテンプレート ID

ビデオ解像度オプション:720P

動画持続時間:2 秒持続時間60 秒

固定仕様:15 fps、MP4(H.264 エンコーディング)

入力人物画像

入力ダンス動画

出力動画(画像背景で生成)

出力動画(動画背景で生成)

05-9_16

エモーティブポートレート (EMO)

説明
  • 中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

  • Wanxiang-Digital Human をエモーティブポートレート (EMO) の代替として使用することを検討してください。Wanxiang-Digital Human はより良い結果を提供しますが、EMO はよりコスト効率の高いオプションです。

画像から歌唱およびパフォーマンス動画を生成します。 画像と音声ファイルを提供すると、モデルは自動的に同期された口の動き、表情、頭の動きを持つ動画を生成します。

画像検出 API リファレンス | ビデオ生成 API リファレンス | モデル料金

モデル

特徴

入力モダリティ

出力詳細

emo-detect-v1

画像検出

画像

出力検出ステータス:合格または不合格

emo-v1

ビデオ生成

音声付き動画

画像、音声

ビデオ解像度:

  • 1:1 アスペクト比:512×512 に固定

  • 3:4 アスペクト比:512×704 に固定

動画持続時間:最大 60 秒

固定仕様:15 fps、MP4(H.264 エンコーディング)

入力例(ポートレート画像 + 音声)

出力動画(歌唱口パク同期)

15_原图

入力音声:

LivePortrait

説明
  • 中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

  • Wanxiang Digital Human を LivePortrait の代替として使用することを推奨します。Wanxiang Digital Human はより高品質な結果を提供しますが、LivePortrait はよりコスト効率の高いオプションです。LivePortrait は長尺動画(20 秒以上)の生成に適していることに注意してください。

画像からナレーション動画を生成し、画像内の人物をアニメーション化してニュースを伝えたり、物語を語ったりします。 画像と音声ファイルを提供すると、モデルは自動的に同期された口の動き、表情、わずかな頭の動きを持つ動画を生成します。

画像検出 API リファレンスビデオ生成 API リファレンスモデル料金

モデル

特徴

入力モダリティ

出力詳細

liveportrait-detect

画像検出

画像

出力検出ステータス:合格または不合格

liveportrait

ビデオ生成

音声付き動画

画像、音声

ビデオ解像度:入力画像に一致、最大 4K 近く(4096×4096)

動画持続時間:1 秒 < 持続時間 < 180 秒

ビデオフレームレート:15 fps ≤ フレームレート ≤ 30 fps

ビデオフォーマット:MP4(H.264 エンコーディング)

入力例(ポートレート画像 + 音声)

出力動画(ナレーション口パク同期)

Emoji男孩

入力音声:

絵文字

説明

中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

固定の絵文字テンプレートを使用して絵文字を作成します。 画像と絵文字テンプレート ID を提供して、絵文字動画を生成します。

画像検出 API リファレンスビデオ生成 API リファレンスモデル料金

モデル

特徴

入力モダリティ

出力詳細

emoji-detect-v1

画像検出

画像

出力検出ステータス:合格または不合格

emoji-v1

ビデオ生成

音声なし動画

画像、絵文字テンプレート ID

ビデオ解像度:512×512 に固定

動画持続時間:最大 5 秒(テンプレートの持続時間に一致)

固定仕様:15 fps、MP4(H.264 エンコーディング)

入力ポートレート画像

出力動画(「嫌悪」の絵文字)

image.png

VideoRetalk

説明

中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

口パク同期:動画内の口の動きを新しい音声トラックに合わせて置き換えます。 動画と音声ファイルを提供すると、モデルは同期された口の動きを持つ出力動画を生成します。

API リファレンスモデル料金

モデル

特徴

入力モダリティ

出力動画仕様

videoretalk

音声付き動画

動画、音声

ビデオ解像度:入力動画に一致、最大 2K 近く(2048×2048)

動画持続時間:2 秒 < 持続時間 < 120 秒

ビデオフレームレート:15 fps ≤ フレームレート ≤ 60 fps

ビデオフォーマット:MP4(H.264 エンコーディング)

入力例(人物が話す動画 + 音声)

出力動画(口パク同期置換)

入力音声:

ビデオスタイル変換

説明

中国本土デプロイモードのみがサポートされています。エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土に限定されます。

事前定義されたスタイルテンプレートに基づいて、動画に新しい芸術的なスタイルを適用します。 動画とスタイル変換 ID を提供して、再スタイル化された動画を生成します。

API リファレンスモデル料金

モデル

特徴

入力モダリティ

出力動画仕様

video-style-transform

音声あり/なし動画

入力動画に依存します。

動画、再描画スタイル ID

ビデオ解像度:入力動画に一致、最大 4K 近く(4096×4096)

動画持続時間:最大 30 秒

ビデオフレームレート:15 fps ≤ フレームレート ≤ 25 fps

ビデオフォーマット:MP4(H.264 エンコーディング)

入力動画

出力動画(スタイル変換オプション:「日本の漫画」)