Wan リファレンス動画生成モデルは、マルチモーダル入力 (テキスト、画像、または動画) をサポートしています。人物やオブジェクトを主役として使用し、プロンプトに基づいて自然で生き生きとしたパフォーマンス動画を生成できます。
基本機能:動画の長さ (2~10 秒) の設定、解像度 (720P または 1080P) の指定、ウォーターマークの追加が可能です。
キャラクター描写:リファレンス画像または動画からキャラクターの外見を再現します。リファレンスが動画の場合、モデルは声色も再現できます。シングルキャラクターのパフォーマンスまたはマルチキャラクターのインタラクションをサポートします。
マルチショットナラティブ:インテリジェントなマルチショットスケジューリングを使用して、キャラクターの一貫性を維持しながら、自然な対話と安定したインタラクションをサポートします。
クイックリンク: API リファレンス | プロンプトガイド
利用可能状況
サポートされるモデルはリージョンによって異なります。リソースはリージョン間で分離されています。API を呼び出す際は、モデル、エンドポイント URL、API キーがすべて同じリージョンに属していることを確認してください。リージョン間の呼び出しは失敗します。
サポートされるモデル:
グローバル
グローバルデプロイメントモードでは、アクセスポイントとデータストレージは米国 (バージニア) リージョンに配置され、モデル推論の計算リソースは世界中で動的にスケジューリングされます。
モデル | 特徴 | 入力モダリティ | 出力動画の仕様 |
wan2.6-r2v | 音声付き動画 リファレンス動画:複数ロールの生成 マルチショットナラティブ、音声と映像の同期 | テキスト、動画 | 解像度オプション:720P、1080P 動画の長さ:5s、10s 定義済み仕様:30 fps、MP4 (H.264 エンコーディング) |
国際
国際デプロイメントモードでは、アクセスポイントとデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除く世界中で動的にスケジューリングされます。
モデル | 特徴 | 入力モダリティ | 出力動画の仕様 |
wan2.6-r2v-flash | 音声あり/なしの動画 マルチキャラクターで生成された動画をご参照ください。 マルチショットナラティブ、音声と映像の同期 | テキスト、画像、動画 | 解像度オプション:720P、1080P 動画の長さ:[2s, 10s] (整数) 定義済み仕様:30 fps、MP4 (H.264 エンコーディング) |
wan2.6-r2v | 音声付き動画 マルチロール動画参照 マルチショットナラティブ、音声と映像の同期 | テキスト、画像、動画 | 解像度オプション:720P、1080P 動画の長さ:[2s, 10s] (整数) 定義済み仕様:30 fps、MP4 (H.264 エンコーディング) |
中国本土
中国本土デプロイメントモードでは、アクセスポイントとデータストレージは北京リージョンに配置され、モデル推論の計算リソースは中国本土に制限されます。
モデル | 特徴 | 入力モダリティ | 出力動画の仕様 |
wan2.6-r2v-flash | 音声あり/なしの動画 マルチロール動画参照 マルチショットナラティブ、音声と映像の同期 | テキスト、画像、動画 | 解像度オプション:720P、1080P 動画の長さ:[2s, 10s] (整数) 定義済み仕様:30 fps、MP4 (H.264 エンコーディング) |
wan2.6-r2v | 音声付き動画 複数ロールで生成された動画を表示します。 マルチショットナラティブ、音声と映像の同期 | テキスト、画像、動画 | 解像度オプション:720P、1080P 動画の長さ:[2s, 10s] (整数) 定義済み仕様:30 fps、MP4 (H.264 エンコーディング) |
このトピックのサンプルコードはシンガポールリージョンに適用されます。他のリージョンについては、「API リファレンス」をご参照ください。
コア機能
マルチキャラクターのインタラクション
サポートされるモデル:すべてのモデル。
説明:最大 5 人のキャラクターが登場するマルチキャラクターシーンを生成し、自然な対話とインタラクションを実現します。インタビュー、会話、チュートリアルなどのシナリオに適しています。
パラメーター設定:
reference_urls:最大 5 つの URL を渡します。各 URL は画像または動画を指すことができます。画像数:0~5。リファレンス画像には、人物、オブジェクト、またはバックグラウンドを指定できます。
動画数:0~3。キャラクターまたはオブジェクトのリファレンスに推奨されます。バックグラウンドや空のシーンの動画は使用しないでください。
各リファレンス (動画または画像) には、1 人のキャラクターのみを含める必要があります。
shot_type:表現力を高めるためにマルチショット切り替えを行う場合はmultiに設定します。固定のシングルショット視点にする場合はsingleに設定します。prompt:プロンプトは、`character1` や `character2` などの識別子を使用してキャラクターを参照します。キャラクターの順序はreference_urls配列に対応します。最初の URL が `character1`、2 番目が `character2` となります。
リファレンス画像と動画
入力プロンプト:character2 は窓際の椅子に座り、character3 を抱き、character4 の隣で心地よいアメリカンカントリーフォークソングを演奏します。character1 は character2 に「それは素晴らしい音だね」と言います。 | ||||
入力動画 character1 リファレンスキャラクター | 入力動画 文字 2 リファレンスキャラクター | 入力画像 character3 リファレンスオブジェクト | 入力画像 character4 リファレンスバックグラウンド | 出力動画 (マルチショット、音声付き) |
|
| |||
リファレンス動画
入力プロンプト:character1 は character2 に「明日の朝は頼んだよ!」と言います。character2 は「任せてください!」と返します。 | ||
入力動画 character1 リファレンスキャラクター | 入力動画 文字2 リファレンスオブジェクト | 出力動画 (マルチショット、音声付き) |
curl
ステップ 1:タスクを作成してタスク ID を取得する
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "Character2 sits on a chair by the window, holding character3, and plays a soothing American country folk song next to character4. Character1 says to Character2: \"that sounds great\"",
"reference_urls": [
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/20260205/aacgyk/wan-r2v-role1.mp4",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/20260205/mmizqq/wan-r2v-role2.mp4",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/20260129/qpzxps/wan-r2v-object4.png",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/20260129/wfjikw/wan-r2v-backgroud5.png"
]
},
"parameters": {
"size": "1280*720",
"duration": 10,
"audio": true,
"shot_type": "multi",
"watermark": true
}
}'ステップ 2:タスク ID を使用して結果を取得する
{task_id} を、前の API 呼び出しで返された task_id の値に置き換えます。
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"シングルキャラクターのパフォーマンス
サポートされるモデル:すべてのモデル。
説明:リファレンス動画または画像に基づいて、異なるシーンにわたる完全なキャラクターパフォーマンスを生成します。パーソナルブランディング、製品の宣伝、教育トレーニングに適しています。
パラメーター設定:
reference_urls:単一のリファレンス動画または画像の URL。shot_type:表現力を高めるためにマルチショット切り替えを行う場合は、これをmultiに設定することを推奨します。固定のシングルショット視点にする場合はsingleに設定します。prompt:「character1」を使用して、リファレンス動画または画像のキャラクターを参照します。
入力プロンプト | 入力動画 character1 | 出力動画 (マルチショット、音声付き) |
お祝いのホリデー開封体験を作成します。ショット 1 [0-2s]:Character1 は、きらめくライトで美しく飾られたクリスマスツリーのそばに座り、エレガントな赤と金のラッピングが施されたギフトボックスを持っています。ショット 2 [2-4s]:Character1 が慎重にギフトを開封し、中から高級スキンケア製品が現れるクローズアップ。ショット 3 [4-6s]:Character1 は喜びながら製品を塗り、「このホリデーの輝きはまさに私が欲しかったもの!」と言います。ショット 4 [6-10s]:Character1 は、お祝いの装飾に囲まれた手鏡で輝く肌を眺め、カメラに向かって温かい笑顔で終わります。 |
curl
ステップ 1:タスクを作成してタスク ID を取得する
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: \"This holiday glow is exactly what I wanted!\" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera.",
"reference_urls":["https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/20260205/mjgmzx/wan-r2v-role-4.mp4"]
},
"parameters": {
"size": "1280*720",
"duration": 10,
"shot_type":"multi",
"watermark": true
}
}'ステップ 2:タスク ID を使用して結果を取得する
{task_id} を、前の API 呼び出しで返された task_id の値に置き換えます。
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"無音動画の生成
サポートされるモデル:wan2.6-r2v-flash。
説明:この機能は、アニメーションポスターや無音のショート動画の作成など、音声が不要なビジュアルのみのシナリオに最適です。
パラメーター:
audio:無音動画を生成するには、audio = falseを設定します。prompt:「character1」を使用して、リファレンス内のキャラクターを参照します。
入力プロンプト | 入力動画 character1 | 出力動画 (無音動画) |
character1 はタピオカティーを飲みながら、音楽に合わせて自然に踊ります。 |
curl
ステップ 1:タスクを作成してタスク ID を取得する
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "character1 drinks bubble tea while dancing spontaneously to the music.",
"reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
},
"parameters": {
"size": "1280*720",
"duration": 5,
"shot_type":"multi",
"audio": false,
"watermark": true
}
}'ステップ 2:タスク ID を使用して結果を取得する
{task_id} を、前の API 呼び出しで返された task_id の値に置き換えます。
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"入力リファレンス
入力画像
画像数:最大 5 枚。
合計制限:画像と動画の合計は 5 を超えてはなりません。
入力メソッド:
パブリック URL:HTTP または HTTPS プロトコルをサポートします。例:https://xxxx/xxx.png。
入力動画
動画数:最大 3 本。
合計制限:画像と動画の合計は 5 を超えてはなりません。
入力メソッド:
パブリック URL:HTTP または HTTPS プロトコルをサポートします。例:https://xxxx/xxx.mp4。
出力動画
動画数:1 本。
フォーマット:MP4。解像度およびその他の仕様については、「サポートされるモデル」をご参照ください。
URL の有効期限:24 時間。
寸法:size の解像度によって決まります。たとえば、
size=1280*720は 16:9 のアスペクト比を生成します。
課金とレート制限
無料クォータと料金については、「モデル呼び出しの料金」をご参照ください。
レート制限については、「Wan シリーズ」をご参照ください。
課金の詳細:
入力画像は課金されません。入力動画と出力動画は秒単位で課金されます。
呼び出しの失敗や処理エラーは料金が発生せず、新規ユーザー向けの無料クォータも消費されません。
音声付き動画と無音動画では料金が異なります (例:wan2.6-r2v-flash)。
課金対象時間の計算:
合計課金対象時間 = 入力動画の時間 (最大 5 秒) + 出力動画の時間。
入力動画の課金対象時間:入力動画の合計課金対象時間は 5 秒を超えません。
計算:すべてのリファレンス (画像と動画) に均等に分散されるように、各動画に切り捨て上限が割り当てられます。各動画は
min(実際の時間, 切り捨て上限)で課金されます。複数の動画がある場合、課金対象時間は合計されます。例:3 つの素材 (画像 1 枚 + 動画 2 本) を入力し、動画ごとの切り捨て上限が 1.65 秒の場合:
入力の課金対象時間 =
min(動画 1 の時間, 1.65s) + min(動画 2 の時間, 1.65s)。画像は無料です。
出力動画の課金対象時間:正常に生成された動画の秒単位の時間。
API ドキュメント
詳細については、「動画 API リファレンス」をご参照ください。
よくある質問
Q:動画のアスペクト比 (例:16:9) を設定するにはどうすればよいですか?
A:size パラメーターを使用して動画の解像度を指定します。システムは解像度に基づいてアスペクト比を自動的に決定します。
たとえば、size=1280*720 は 16:9 のアスペクト比を生成します。各 size の値は固定のアスペクト比に対応します。ターゲットの比率に適した解像度を選択してください。
Q:プロンプトでソース素材のキャラクターを参照するにはどうすればよいですか?
A:各リファレンス (動画または画像) には、1 人のキャラクターのみを含める必要があります。character1 や character2 などの識別子を使用してキャラクターを参照します。識別子は、reference_urls 配列内のリファレンスの順序に対応します。例:
"reference_urls":[
"https://example.com/girl.mp4", // character1
"https://example.com/clock.png" // character2
]
