すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Wan - 汎用ビデオ編集 API リファレンス

最終更新日:Jan 28, 2026

このトピックでは、Wan-VACE モデルの入力および出力パラメーターについて説明します。このモデルは、テキスト、画像、ビデオなどの複数の入力モダリティをサポートし、さまざまなビデオ生成および編集タスクを実行できます。

クイックリンク: Wan 公式サイトでオンラインで試す

説明

公式サイトで提供される機能は、API がサポートする機能と異なる場合があります。API の機能については、このトピックで詳しく説明します。新しい機能がリリースされると、このトピックは速やかに更新されます。

モデル概要

シンガポールリージョン

モデル

単価

レート制限 (Alibaba Cloud アカウントと RAM ユーザーで共有)

無料クォータ (表示)

タスク送信 API の RPS 制限

同時タスク数

wan2.1-vace-plus

$0.1/秒

2

2

50 秒

中国 (北京) リージョン

重要

中国 (北京) リージョンでは無料クォータは提供されません。このリージョンでのすべての呼び出しには料金が発生します。続行する前にご確認ください。

モデル

単価

レート制限 (Alibaba Cloud アカウントと RAM ユーザーで共有)

タスク送信 API の RPS 制限

同時タスク数

wanx2.1-vace-plus

$0.100347/秒

2

2

クリックして課金例を表示

無料クォータを使い切ると課金が開始されます。課金計算式は次のとおりです:合計費用 = 単価 * ビデオの長さ (秒)

  • シンガポールリージョンで wan2.1-vace-plus モデルを使用して 1 つのビデオを生成すると仮定します。

  • 費用計算:$0.10/秒 * 5 秒 = $0.50。

パフォーマンスショーケース

機能

入力参照画像

入力プロンプト

出力ビデオ

複数画像参照

参照画像 1 (参照エンティティ)

image

参照画像 2 (参照バックグラウンド)

image

ビデオでは、少女が霧のかかった古代の森から優雅に歩き出します。彼女の足取りは軽く、カメラは彼女の機敏な一瞬一瞬を捉えます。少女が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。光と影が交錯する一瞬に凍結されたこのシーンは、彼女と自然との素晴らしい出会いを記録しています。

出力ビデオ

ビデオ再描画

ビデオには、紳士が運転する黒いスチームパンクスタイルの車が映っています。車は歯車と銅管で飾られています。背景には蒸気動力のキャンディー工場とレトロな要素があり、ヴィンテージで遊び心のあるシーンを作り出しています。

ローカル編集

入力ビデオ

入力マスク画像 (白色のエリアは編集エリアを示します)

mask

ビデオには、パリ風のフレンチカフェでスーツを着たライオンが優雅にコーヒーを飲んでいる様子が映っています。片手にコーヒーカップを持ち、リラックスした表情で優しく一口飲んでいます。カフェは趣味良く装飾され、柔らかな色合いと暖かい照明がライオンのいるエリアを照らしています。

編集エリア内のコンテンツはプロンプトに基づいて変更されます。

ビデオ拡張

最初のクリップを入力 (1 秒)

サングラスをかけた犬が路上でスケートボードをしている、3D カートゥーン。

拡張されたビデオを出力 (5 秒)

ビデオアウトペインティング

優雅な女性が情熱的にバイオリンを弾いており、その後ろにはフル編成の交響楽団がいます

前提条件

API キーを取得し、API キーを環境変数として設定する必要があります。

重要

北京リージョンとシンガポールリージョンには、それぞれ別の API キーリクエストエンドポイントがあります。これらを相互に使用しないでください。リージョンをまたいだ呼び出しは、認証失敗やサービスエラーの原因となります。

HTTP

ビデオ生成モデルの処理には比較的長い時間がかかります。リクエストのタイムアウトを避けるため、HTTP 呼び出しはモデル結果の非同期取得のみをサポートします。2 つのリクエストを行う必要があります:

  1. タスクの作成:タスクを作成するリクエストを送信すると、タスク ID が返されます。

  2. ID を使用した結果のクエリ:タスク ID を使用して、タスクのステータスと結果をクエリします。成功した場合、24 時間有効なビデオ URL が返されます。

説明

タスクを作成すると、タスクはキューに追加されます。その後、クエリインターフェイスを呼び出して、タスク ID に基づいてタスクのステータスと結果を取得します。

汎用ビデオ編集モデルは、タスクの処理に通常 5〜10 分の長い時間を要します。実際の処理時間は、キュー内のタスク数とサービスの実行状況によって異なります。

ステップ 1:タスクを作成し、タスク ID を取得する

POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

ご利用のモデルが中国 (北京) リージョンにある場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換える必要があります。

リクエストパラメーター

複数画像参照

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーの取得」をご参照ください。
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用している場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換える必要があります。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "image_reference",
        "prompt": "ビデオでは、少女が霧のかかった古代の森から優雅に歩き出します。彼女の足取りは軽く、カメラは彼女の機敏な一瞬一瞬を捉えます。少女が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。光と影が交錯する一瞬に凍結されたこのシーンは、彼女と自然との素晴らしい出会いを記録しています。",
        "ref_images_url": [
            "http://wanx.alicdn.com/material/20250318/image_reference_2_5_16.png",
            "http://wanx.alicdn.com/material/20250318/image_reference_1_5_16.png"
        ]
    },
    "parameters": {
        "prompt_extend": true,
        "obj_or_bg": ["obj","bg"],
        "size": "1280*720"
    }
}'

ビデオ再描画

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーの取得」をご参照ください。
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用している場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換える必要があります。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_repainting",
        "prompt": "ビデオには、紳士が運転する黒いスチームパンクスタイルの車が映っています。車は歯車と銅管で飾られています。背景には蒸気動力のキャンディー工場とレトロな要素があり、ヴィンテージで遊び心のあるシーンを作り出しています。",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_repainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "control_condition": "depth"
    }
}'

ローカル編集

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーの取得」をご参照ください。
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用している場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換える必要があります。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_edit",
        "prompt": "ビデオには、パリ風のフレンチカフェでスーツを着たライオンが優雅にコーヒーを飲んでいる様子が映っています。片手にコーヒーカップを持ち、リラックスした表情で優しく一口飲んでいます。カフェは趣味良く装飾され、柔らかな色合いと暖かい照明がライオンのいるエリアを照らしています。",
        "mask_image_url": "http://wanx.alicdn.com/material/20250318/video_edit_1_mask.png",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_edit_2.mp4",
        "mask_frame_id": 1
    },
    "parameters": {
        "prompt_extend": false,
        "mask_type": "tracking",
        "expand_ratio": 0.05
    }
}'

ビデオ拡張

シンガポールリージョンと北京リージョンの API キーは異なります。詳細については、「準備:API キーの取得と設定」をご参照ください。
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用している場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換える必要があります。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_extension",
        "prompt": "サングラスをかけた犬が路上でスケートボードをしている、3D カートゥーン。",
        "first_clip_url": "http://wanx.alicdn.com/material/20250318/video_extension_1.mp4"
    },
    "parameters": {
        "prompt_extend": false
    }
}'

ビデオアウトペインティング

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーの取得」をご参照ください。
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用している場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換える必要があります。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_outpainting",
        "prompt": "優雅な女性が情熱的にバイオリンを弾いており、その後ろにはフル編成の交響楽団がいます。",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_outpainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "top_scale": 1.5,
        "bottom_scale": 1.5,
        "left_scale": 1.5,
        "right_scale": 1.5
    }
}'
リクエストヘッダー

Content-Type string (必須)

リクエストのコンテンツタイプは application/json である必要があります。

Authorization string (必須)

Model Studio API キーを使用した認証情報。

例:Bearer sk-xxxx

X-DashScope-Async string (必須)

非同期処理を有効にします。HTTP リクエストは非同期処理のみをサポートするため、enable に設定する必要があります。

重要

含まれていない場合、「current user api does not support synchronous calls」エラーが返されます。

リクエストボディ

複数画像参照

model string (必須)

モデル名。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt string (必須)

生成するビデオに含めたい要素や視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で、800 文字を超えてはなりません。中国語の文字とアルファベットはそれぞれ 1 文字としてカウントされます。超過した文字は自動的に切り捨てられます。

プロンプトのテクニックに関する詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能の名前です。マルチイメージリファレンスの場合、 image_referenceに設定します。

マルチイメージリファレンス機能は、人物、動物、衣服、シーンなどのエンティティやバックグラウンドを含むことができる、最大 3 つのリファレンスイメージをサポートします。 prompt パラメーターを使用して、目的のビデオコンテンツを記述できます。 その後、モデルはこれらのイメージをマージして、一貫性のあるビデオを生成します。

ref_images_url array[string] (必須)

入力参照画像の URL の配列。

URL はインターネット経由でアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

1〜3 枚の参照画像を提供できます。3 枚を超える画像を提供した場合、最初の 3 枚のみが入力として使用されます。

画像要件:

  • 画像フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 画像解像度:幅と高さは 360〜2,000 ピクセルの間である必要があります。

  • 画像サイズ:10 MB を超えることはできません。

  • URL には中国語の文字を含めることはできません。

推奨事項:

  • 参照画像からエンティティを使用する場合、各画像には 1 つのエンティティのみを含めることを推奨します。エンティティをより良くハイライトするために、バックグラウンドは白や単色などのソリッドカラーにしてください。

  • 参照画像からバックグラウンドを使用する場合、最大 1 つのバックグラウンド画像を使用でき、エンティティオブジェクトを含んではいけません。

parameters object (任意)

ウォーターマーク設定などのビデオ処理パラメーター。

プロパティ

obj_or_bg array[string] (任意)

このパラメーターは、ref_images_url パラメーターと 1 対 1 で対応する配列です。この配列の各要素は、対応するイメージの用途が「エンティティ」か「バックグラウンド」のどちらであるかを指定します:

  • obj: エンティティリファレンスとして機能するイメージ。

  • bg: バックグラウンドリファレンスとして使用されるイメージ。バックグラウンドリファレンスは最大 1 つまで許可されます。

手順:

  • このパラメーターを指定することをお勧めします。このパラメーターは ref_images_url と同じ長さである必要があります。そうでない場合、エラーが返されます。

  • このパラメーターは、ref_images_url が要素が 1 つの配列である場合にのみ省略可能で、その場合のデフォルト値は ["obj"] です。

例:["obj", "obj", "bg"]。

size string (任意)

生成されるビデオの解像度 (幅*高さ)。モデルは現在、720P ビデオの生成をサポートしています。有効な値:

  • 1280*720 (デフォルト):縦横比は 16:9 で、幅が 1280 ピクセル、高さが 720 ピクセルです。

  • 720*1280: 縦横比は 9:16 です。

  • 960*960: 縦横比は 1:1 です。

  • 832*1088: 縦横比は 3:4 です。

  • 1088*832: 縦横比は 4:3 です。

duration integer (任意)

生成されるビデオの長さ (秒)。このパラメーターは 5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、大規模言語モデル (LLM) が入力プロンプトを再書き込みします。これにより、短いプロンプトで生成されるビデオの品質が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト)

  • false

seed integer (任意)

ランダムシードは、生成されるコンテンツのランダム性を制御します。このパラメーターの値は [0, 2147483647] の範囲です。

シードを提供しない場合、アルゴリズムは自動的に乱数をシードとして生成します。生成されるコンテンツが比較的安定していることを保証するために、各リクエストで同じシード値を使用してください。

watermark bool (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークはビデオの右下隅に配置され、「AI-generated」と表示されます。

  • false (デフォルト)

  • true

ビデオ再描画

model string (必須)

モデル名。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt string (必須)

生成するビデオに含めたい要素や視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で、800 文字を超えてはなりません。中国語の文字とアルファベットはそれぞれ 1 文字としてカウントされます。超過した文字は自動的に切り捨てられます。

プロンプトのテクニックに関する詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能名です。ビデオ リペインティングの場合、値を video_repainting に設定します。

ビデオ再描画は、入力ビデオからエンティティのポーズとアクション、構図と動きの輪郭、線画構造を抽出します。モデルは、この情報をテキストプロンプトと組み合わせて、同じ動的特徴を持つ新しいビデオを生成します。また、元のビデオのエンティティを参照画像に置き換えることもできます。たとえば、元のアクションを保持しながらキャラクターの外見を変更するなどです。

video_url string (必須)

入力ビデオの URL。

URL はパブリックにアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

ビデオ要件:

  • ビデオフォーマット:MP4。

  • ビデオフレームレート:16 FPS 以上。

  • ビデオサイズ:50 MB を超えることはできません。

  • ビデオの長さ:5 秒を超えることはできません。超える場合、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

出力ビデオ解像度:

  • 入力ビデオの解像度が 720P 以下の場合、出力ビデオは元の解像度を保持します。

  • 入力ビデオの解像度が 720P を超える場合、元のアスペクト比を維持しながら 720P 以下に縮小されます。

出力ビデオの長さ:

  • 出力ビデオは入力ビデオと同じ長さで、最大 5 秒です。

  • 例:入力ビデオが 3 秒の場合、出力も 3 秒です。入力が 6 秒の場合、出力は最初の 5 秒です。

ref_images_url array[string] (任意)

入力参照画像の URL の配列。URL はパブリックにアクセス可能なエンドポイントであり、HTTP または HTTPS プロトコルをサポートしている必要があります。

1 つの参照画像のみがサポートされています。この画像は、入力ビデオのエンティティを置き換えるために使用されるエンティティ画像であることを推奨します。

画像要件:

  • 画像フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 画像解像度:幅と高さは 360〜2,000 ピクセルの間である必要があります。

  • 画像サイズ:10 MB を超えることはできません。

  • URL には中国語の文字を含めることはできません。

推奨事項:

  • 参照画像からエンティティを使用する場合、各画像には 1 つのエンティティのみを含めることを推奨します。エンティティをより良くハイライトするために、バックグラウンドは白や単色などのソリッドカラーにしてください。

parameters object (必須)

ウォーターマーク設定などのビデオ処理パラメーター。

プロパティ

control_condition string (必須)

ビデオ特徴抽出の方法を指定します。

  • posebodyface: 入力ビデオからエンティティの顔の表情と体の動きを抽出します。顔の詳細を保持する必要があるシナリオに適しています。

  • posebody: 入力ビデオから、顔の表情を除いたエンティティの体の動きを抽出します。これは、体の動きのみをコントロールする必要があるシナリオで使用します。

  • depth: 入力動画から構図と動きの輪郭を抽出します。

  • scribble: 入力動画から線画構造を抽出します。

strength float (任意)

control_condition 特徴抽出メソッドが生成されたビデオに適用するコントロールの強度を調整します。

デフォルト値は 1.0 です。値の範囲は [0.0, 1.0] です。

値が大きいほど、生成されるビデオは元ビデオのアクションや構図に近くなります。値が小さいほど、より創造的な自由度が高まります。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これにより、短いプロンプトで生成されるビデオの品質が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト)

  • false (推奨)

テキストによる説明が動画の内容と一致しない場合、モデルがプロンプトを誤って解釈する可能性があります。生成の一貫性と精度を向上させるには、プロンプトの書き換えを手動で無効にし、prompt に明確で具体的な説明を記述してください。

seed integer (任意)

ランダムシードは、生成されるコンテンツのランダム性を制御します。このパラメーターの有効値は [0, 2147483647] です。

シードを提供しない場合、アルゴリズムは自動的に乱数をシードとして生成します。生成されるコンテンツが比較的安定していることを保証するために、各リクエストで同じシード値を使用してください。

watermark bool (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークはビデオの右下隅に配置され、「AI-generated」と表示されます。

  • false (デフォルト)

  • true

ローカル編集

model string (必須)

モデル名。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt string (必須)

生成するビデオに含めたい要素や視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で、800 文字を超えてはなりません。中国語の文字とアルファベットはそれぞれ 1 文字としてカウントされます。超過した文字は自動的に切り捨てられます。

プロンプトのテクニックに関する詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能の名前です。ローカル編集の場合、値を video_edit に設定します。

ローカル編集では、入力ビデオの指定されたエリアの要素を追加、変更、または削除できます。また、編集エリアのエンティティやバックグラウンドを置き換えて、詳細なビデオ編集を実現することもできます。

video_url string (必須)

入力ビデオの URL。

URL はパブリックにアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

ビデオ要件:

  • ビデオフォーマット:MP4。

  • ビデオフレームレート:16 FPS 以上。

  • ビデオサイズ:50 MB を超えることはできません。

  • ビデオの長さ:5 秒を超えることはできません。超える場合、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

出力ビデオ解像度:

  • 入力ビデオの解像度が 720P 以下の場合、出力ビデオは元の解像度を保持します。

  • 入力ビデオの解像度が 720P を超える場合、元のアスペクト比を維持しながら 720P 以下に縮小されます。

出力ビデオの長さ:

  • 出力ビデオは入力ビデオと同じ長さで、最大 5 秒です。

  • 例:入力ビデオが 3 秒の場合、出力も 3 秒です。入力が 6 秒の場合、出力は最初の 5 秒です。

ref_images_url array[string] (任意)

入力参照画像の URL の配列。

URL はインターネット経由でアクセス可能なエンドポイントであり、HTTP または HTTPS プロトコルをサポートしている必要があります。

現在、1 つの参照画像のみがサポートされています。この画像は、入力ビデオの対応するコンテンツを置き換えるためのエンティティまたはバックグラウンドとして使用できます。

画像要件:

  • 画像フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 画像解像度:幅と高さは 360〜2,000 ピクセルの間である必要があります。

  • 画像サイズ:10 MB を超えることはできません。

  • URL には中国語の文字を含めることはできません。

推奨事項:

  • 参照画像からエンティティを使用する場合、各画像には 1 つのエンティティのみを含めることを推奨します。エンティティをより良くハイライトするために、バックグラウンドは白や単色などのソリッドカラーにしてください。

  • 参照画像からバックグラウンドを使用する場合、バックグラウンド画像にはエンティティオブジェクトを含めないでください。

mask_image_url string (任意)

マスク画像の URL。URL はパブリック URL であり、HTTP または HTTPS プロトコルをサポートしている必要があります。

このパラメーターはビデオ編集 エリアを指定します。このパラメーターまたは mask_video_url パラメーターのいずれかを指定する必要があります。このパラメーターを推奨します

マスク画像の白色エリア (ピクセル値 [255, 255, 255]) は編集する部分を示します。黒色エリア (ピクセル値 [0, 0, 0]) は保持するエリアを示します。

画像要件:

  • 画像フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • イメージの解像度は、入力ビデオの解像度(video_url)と同じである必要があります。

  • 画像サイズ:10 MB を超えることはできません。

  • URL には中国語の文字を含めることはできません。

mask_frame_id integer (任意)

このパラメーターは、mask_image_url が Empty でない場合にのみ使用され、マスクされたオブジェクトが現れるビデオフレームのフレーム ID を指定します。

デフォルト値は 1 で、ビデオの最初のフレームを示します。

値は [1, max_frame_id] の範囲内である必要があります。ただし、max_frame_id = 入力ビデオフレームレート*入力ビデオのデュレーション+1 です。

例えば、フレームレートが 16 FPS、長さが 5 秒の入力ビデオ (video_url) の場合、総フレーム数は 81 (16*5 + 1) です。 したがって、max_frame_id の値は 81 です。

mask_video_url string (任意)

マスクビデオの URL。この URL はインターネット経由でアクセス可能なエンドポイントであり、HTTP または HTTPS プロトコルをサポートしている必要があります。

このパラメーターは、編集するビデオのエリアを指定します。このパラメーターまたは mask_image_url パラメーターのいずれかを指定する必要があります。

マスクビデオのフォーマット、フレームレート、解像度、および長さは、入力ビデオ (video_url) と同じである必要があります。

マスクビデオの白色エリア (ピクセル値 [255, 255, 255]) は編集する部分を示します。黒色エリア (ピクセル値 [0, 0, 0]) は保持するエリアを示します。

parameters object (任意)

ウォーターマーク設定などのビデオ処理パラメーター。

プロパティ

control_condition string (任意)

ビデオ特徴抽出の方法を指定します。デフォルト値は "" で、抽出は行われません。

  • posebodyface: 入力ビデオ内のエンティティから、顔の表情と体の動きを抽出します。この特徴は、フレーム内でエンティティの顔がはっきりと映っており、その特徴が鮮明であるシナリオに適しています。

  • depth: 入力ビデオから構造とモーションの輪郭を抽出します。

mask_type string (任意)

このパラメーターは、mask_image_url が空でない場合にのみ有効です。編集エリアの動作を指定します。

  • tracking (デフォルト): 編集エリアは、ターゲットオブジェクトの軌跡を動的に追跡します。このモードは、移動するオブジェクトを含むシーンに適しています。

  • fixed: ビデオのコンテンツに関係なく、編集エリアは固定されます。

expand_ratio float (任意)

mask_typetracking に設定されている場合、このパラメーターはマスクエリアの拡張率を指定します。

値の範囲は [0.0, 1.0] です。デフォルト値は 0.05 です。デフォルト値を使用することを推奨します。

値が小さいほど、マスクエリアはターゲットオブジェクトにより密接にフィットします。値が大きいほど、マスクエリアはより広く拡張されます。

expand_mode string (任意)

このパラメーターは、mask_typetracking に設定されている場合のマスクエリアの形状を指定します。

アルゴリズムは、入力マスクイメージと選択された expand_mode に基づいた形状のマスクビデオを生成します。次の値がサポートされています:

  • hull (デフォルト):ポリゴンモード。ポリゴンがマスクされたオブジェクトを囲みます。

  • bbox: バウンディングボックスモード。マスクされたオブジェクトを矩形で囲みます。

  • original: RAW モード。マスクされたオブジェクトの元の形状を可能な限り維持します。

size string (任意)

生成されるビデオの解像度 (幅*高さ)。モデルは現在、720P ビデオの生成をサポートしています。有効な値:

  • 1280*720 (デフォルト): 縦横比は 16:9 で、幅が 1280 ピクセル、高さが 720 ピクセルです。

  • 720*1280: 縦横比は 9:16 です。

  • 960*960: 縦横比は 1:1 です。

  • 832*1088: 縦横比は 3:4 です。

  • 1088*832: 縦横比 4:3。

duration integer (任意)

生成されるビデオの長さ (秒)。このパラメーターは 5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これにより、短いプロンプトで生成されるビデオの品質が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト)

  • false (推奨)

テキストの説明が動画コンテンツと一致しない場合、モデルはプロンプトを誤って解釈する可能性があります。生成の一貫性と精度を向上させるには、手動でプロンプトの書き換えを無効にし、 prompt に明確で具体的な説明を指定してください。

seed integer (任意)

ランダムシードは、生成されるコンテンツのランダム性を制御します。このパラメーターの値は [0, 2147483647] の範囲です。

シードを提供しない場合、アルゴリズムは自動的に乱数をシードとして生成します。生成されるコンテンツが比較的安定していることを保証するために、各リクエストで同じシード値を使用してください。

watermark bool (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークはビデオの右下隅に配置され、「AI-generated」と表示されます。

  • false (デフォルト)

  • true

ビデオ拡張

model string (必須)

モデル名。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt string (必須)

生成するビデオに含めたい要素や視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で、800 文字を超えてはなりません。中国語の文字とアルファベットはそれぞれ 1 文字としてカウントされます。超過した文字は自動的に切り捨てられます。

プロンプトのテクニックに関する詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能の名前です。ビデオ拡張機能の場合、値は video_extension です。

ビデオ拡張は、画像またはビデオに基づいて連続したコンテンツの生成をサポートします。また、参照ビデオからアクションや構図などの動的特徴を抽出し、同様のモーションパフォーマンスを持つビデオの生成をガイドすることもサポートします。

拡張されたビデオの合計時間は 5 秒です。注意:これは最終的な出力ビデオの合計時間であり、元のビデオに追加される 5 秒の拡張ではありません。

first_frame_url string (任意)

最初のフレーム画像の URL。

URL は、HTTP または HTTPS プロトコルをサポートするパブリックエンドポイントである必要があります。

画像要件:

  • 画像フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 画像解像度:幅と高さは 360〜2,000 ピクセルの間である必要があります。

  • 画像サイズ:10 MB を超えることはできません。

  • URL には中国語の文字を含めることはできません。

last_frame_url string(任意)

最後のフレーム画像の URL。URL はインターネット経由でアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

画像要件:

  • 画像フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 画像解像度:幅と高さは 360〜2,000 ピクセルの間である必要があります。

  • 画像サイズ:10 MB を超えることはできません。

  • URL には中国語の文字を含めることはできません。

first_clip_url string (任意)

最初のビデオセグメントの URL。URL は、HTTP または HTTPS プロトコルをサポートするパブリックにアクセス可能なエンドポイントである必要があります。

ビデオ要件:

  • ビデオフォーマット:MP4。

  • ビデオフレームレートは 16 FPS 以上にする必要があります。first_clip_urllast_clip_url の両方を使用する場合、2つのクリップのフレームレートを同じにすることを推奨します。

  • ビデオサイズ:50 MB を超えることはできません。

  • ビデオの長さは 3 秒を超えることはできません。 ビデオがこの制限を超えた場合、最初の 3 秒のみが使用されます。 first_clip_urllast_clip_url の両方が指定されている場合、それらの合計再生時間は 3 秒を超えることはできません。

  • URL には中国語の文字を含めることはできません。

出力ビデオ解像度:

  • 入力ビデオの解像度が 720P 以下の場合、出力ビデオは元の解像度を保持します。

  • 入力ビデオの解像度が 720P を超える場合、元のアスペクト比を維持しながら 720P 以下に縮小されます。

last_clip_url string(任意)

最後のビデオセグメントの URL。URL はインターネット経由でアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

ビデオ要件:

  • ビデオフォーマット:MP4。

  • ビデオフレームレート:16 FPS 以上。 first_clip_urllast_clip_url を併用する場合、2 つのクリップのフレームレートを同じにすることを推奨します。

  • ビデオサイズ:50 MB を超えることはできません。

  • 動画の長さ: 動画の最大長は 3 秒です。動画が 3 秒を超える場合、最初の 3 秒のみが使用されます。first_clip_urllast_clip_url の両方が指定されている場合、それらの合計の長さは 3 秒を超えることはできません。

  • URL には中国語の文字を含めることはできません。

出力ビデオ解像度:

  • 入力ビデオの解像度が 720P 以下の場合、出力ビデオは元の解像度を保持します。

  • 入力ビデオの解像度が 720P を超える場合、元のアスペクト比を維持しながら 720P 以下に縮小されます。

video_url string (任意)

ビデオの URL。URL はパブリックにアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

このビデオは、モーションの特徴を抽出し、first_frame_urllast_frame_urlfirst_clip_url、および last_clip_url パラメーターを使用して、同様のモーションを持つ拡張ビデオを生成します。

ビデオ要件:

  • ビデオフォーマット:MP4。

  • ビデオフレームレート:16 FPS 以上で、先行および後続のクリップと一致していること。

  • ビデオ解像度:先行および後続のフレームおよびクリップと一致していること。

  • ビデオサイズ:50 MB を超えることはできません。

  • ビデオの長さ:5 秒を超えることはできません。超える場合、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

parameters object (任意)

出力ビデオ解像度などのビデオ処理パラメーター。

プロパティ

control_condition string (任意)

ビデオ特徴抽出の方法を指定します。これは `video_url` が提供されている場合に必須です。デフォルト値は "" で、抽出は行われません。

  • posebodyface: 入力ビデオからエンティティの顔の表情と体の動きを抽出します。

  • depth: 入力ビデオから構図および動きの輪郭を抽出します。

duration integer (任意)

生成されるビデオの長さ (秒)。このパラメーターは 5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これにより、短いプロンプトで生成されるビデオの品質が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト)

  • false (推奨)

テキストの説明が動画コンテンツと一致しない場合、モデルはプロンプトを誤って解釈する可能性があります。生成の一貫性と精度を向上させるには、手動でプロンプトの書き換えを無効にし、 prompt に明確で具体的な説明を指定してください。

seed integer (任意)

ランダムシードは、生成されるコンテンツのランダム性を制御します。このパラメーターの有効値は [0, 2147483647] です。

シードを提供しない場合、アルゴリズムは自動的に乱数をシードとして生成します。生成されるコンテンツが比較的安定していることを保証するために、各リクエストで同じシード値を使用してください。

watermark bool (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークはビデオの右下隅に配置され、「AI-generated」と表示されます。

  • false (デフォルト)

  • true

ビデオアウトペインティング

model string (必須)

モデル名。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt string (必須)

生成するビデオに含めたい要素や視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で、800 文字を超えてはなりません。中国語の文字とアルファベットはそれぞれ 1 文字としてカウントされます。超過した文字は自動的に切り捨てられます。

プロンプトのテクニックに関する詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

使用する機能を指定します。ビデオアウトペインティングの場合、このパラメーターを video_outpainting に設定します。

ビデオアウトペインティングは、ビデオを上下左右の方向に比例的に拡大縮小することをサポートします。

video_url string (必須)

入力ビデオの URL。

URL はパブリックにアクセス可能で、HTTP または HTTPS プロトコルをサポートしている必要があります。

ビデオ要件:

  • ビデオフォーマット:MP4。

  • ビデオフレームレート:16 FPS 以上。

  • ビデオサイズ:50 MB を超えることはできません。

  • ビデオの長さ:5 秒を超えることはできません。超える場合、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

出力ビデオ解像度:

  • 入力ビデオの解像度が 720P 以下の場合、出力ビデオは元の解像度を保持します。

  • 入力ビデオの解像度が 720P を超える場合、元のアスペクト比を維持しながら 720P 以下に縮小されます。

出力ビデオの長さ:

  • 出力ビデオは入力ビデオと同じ長さで、最大 5 秒です。

  • 例:入力ビデオが 3 秒の場合、出力も 3 秒です。入力が 6 秒の場合、出力は最初の 5 秒です。

parameters object (任意)

拡大縮小率などのビデオ処理パラメーター。

プロパティ

top_scale float (任意)

ビデオフレームを中央に配置し、ビデオを上方向に比例的に拡大します。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 で、拡大しないことを意味します。

bottom_scale float (任意)

ビデオフレームを中央に配置し、縦横比を維持して縮小します。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 で、拡大しないことを意味します。

left_scale float (任意)

ビデオフレームを中央に配置し、ビデオを比例的に拡大縮小して左に寄せます。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 で、拡大しないことを意味します。

right_scale float (任意)

ビデオフレームを中央に配置し、ビデオを右方向に比例的に拡大します。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 で、拡大しないことを意味します。

duration integer (任意)

生成されるビデオの長さ (秒)。このパラメーターは 5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これにより、短いプロンプトで生成されるビデオの品質が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト)

  • false (推奨)

テキストの説明が動画コンテンツと一致しない場合、モデルがプロンプトを誤って解釈する可能性があります。生成の一貫性と精度を向上させるには、プロンプトの書き換えを手動で無効にし、prompt に明確で具体的な説明を提供してください。

seed integer (任意)

乱数シードは、生成されるコンテンツのランダム性を制御します。このパラメーターの値は [0, 2147483647] の範囲です。

シードを提供しない場合、アルゴリズムは自動的に乱数をシードとして生成します。生成されるコンテンツが比較的安定していることを保証するために、各リクエストで同じシード値を使用してください。

watermark bool (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークはビデオの右下隅に配置され、「AI-generated」と表示されます。

  • false (デフォルト)

  • true

レスポンスパラメーター

成功応答

task_idを保存し、タスクステータスと結果のクエリに使用します。

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

エラー応答

タスクの作成に失敗しました。問題を解決するには、「エラーコード」をご参照ください。

{
    "code": "InvalidApiKey",
    "message": "No API-key provided.",
    "request_id": "7438d53d-6eb8-4596-8835-xxxxxx"
}

output object

タスクの出力情報。

プロパティ

task_id string

タスクの ID。最大 24 時間、タスクのクエリに使用できます。

task_status string

タスクのステータス。

列挙

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN:タスクが存在しないか、ステータスが不明です

request_id string

リクエストの一意の識別子。問題の追跡とトラブルシューティングに使用します。

code string

エラーコード。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

message string

詳細なエラーメッセージ。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

ステップ 2:タスク ID で結果をクエリする

シンガポール:GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}

北京:GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

リクエストパラメーター

タスク結果のクエリ

86ecf553-d340-4e21-xxxxxxxxx を実際のタスク ID に置き換えてください。

API キーはリージョン固有です。詳細については、「API キードキュメント」をご参照ください。
北京リージョンのモデルでは、base_url を https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"
リクエストヘッダー

Authorization string (必須)

Model Studio API キーを使用した認証情報。

例:Bearer sk-xxxx

URL パスパラメーター

task_id string (必須)

クエリするタスクの ID。

レスポンスパラメーター

タスク成功

タスクステータスやビデオ URL などのタスクデータは 24 時間のみ保持され、その後自動的に消去されます。生成されたビデオは速やかに保存してください。

{
    "request_id": "851985d0-fbba-9d8d-a17a-xxxxxx",
    "output": {
        "task_id": "208e2fd1-fcb4-4adf-9fcc-xxxxxx",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-05-15 16:14:44.723",
        "scheduled_time": "2025-05-15 16:14:44.750",
        "end_time": "2025-05-15 16:20:09.389",
        "video_url": "https://dashscope-result-wlcb.oss-cn-wulanchabu.aliyuncs.com/xxx.mp4?xxxxxx",
        "orig_prompt": "ビデオでは、少女が霧のかかった古代の森から優雅に歩き出します。彼女の足取りは軽く、カメラは彼女の機敏な一瞬一瞬を捉えます。少女が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。光と影が交錯する一瞬に凍結されたこのシーンは、彼女と自然との素晴らしい出会いを記録しています。",
        "actual_prompt": "薄色のロングドレスを着た少女が、霧のかかった古代の森からゆっくりと歩き出し、その足取りはダンスのように軽い。彼女は少しカールした長い髪、繊細な顔、そして明るい目を持っています。カメラは彼女の動きを追い、機敏な一瞬一瞬を捉えます。彼女が立ち止まり、振り返り、緑豊かな森を見回すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。太陽の光が葉の間から差し込み、まだらな影を落とし、人間と自然の調和のこの美しい瞬間を凍結させます。スタイルは新鮮で自然なポートレートで、中距離ショットとフルショットを水平な視点とわずかなカメラの動きで組み合わせています。"
    },
    "usage": {
        "video_duration": 5,
        "video_ratio": "standard",
        "video_count": 1
    }
}

タスク失敗

タスクが失敗すると、task_status は FAILED に設定され、エラーコードとメッセージが返されます。問題を解決するには、エラーコードをご参照ください。

{
    "request_id": "e5d70b02-ebd3-98ce-9fe8-759d7d7b107d",
    "output": {
        "task_id": "86ecf553-d340-4e21-af6e-a0c6a421c010",
        "task_status": "FAILED",
        "code": "InvalidParameter",
        "message": "The size is not match xxxxxx"
    }
}

output object

タスクの出力情報。

プロパティ

task_id string

タスクの ID。最大 24 時間、タスクのクエリに使用できます。

task_status string

タスクのステータス。

列挙

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN:タスクが存在しないか、ステータスが不明です

submit_time string

タスクが送信された時刻。時刻は UTC+08:00 です。フォーマット:YYYY-MM-DD HH:mm:ss.SSS

scheduled_time string

タスクが実行を開始した時刻。時刻は UTC+08:00 です。フォーマット:YYYY-MM-DD HH:mm:ss.SSS

end_time string

タスクが完了した時刻。時刻は UTC+08:00 です。フォーマット:YYYY-MM-DD HH:mm:ss.SSS

video_url string

ビデオ URL。リンクは 24 時間有効です。この URL を使用してビデオをダウンロードできます。出力ビデオフォーマットは MP4 (H.264 エンコーディング) です。

orig_prompt string

元の入力プロンプト。

actual_prompt string

プロンプトの再書き込みが有効になっている場合に使用される実際のプロンプト。プロンプトの再書き込みが無効になっている場合、このフィールドは返されません。

code string

エラーコード。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

message string

詳細なエラーメッセージ。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

usage object

タスクの使用状況統計。成功したタスクのみがカウントされます。

プロパティ

video_duration integer

生成されたビデオの長さ (秒)。

video_ratio string

生成されたビデオの縦横比は standard に固定されています。

video_count integer

生成されたビデオの数。

request_id string

リクエストの一意の識別子。問題の追跡とトラブルシューティングに使用します。

課金とレート制限

  • モデルの無料クォータと課金レートについては、「汎用ビデオ編集」をご参照ください。

  • モデルのレート制限については、「Wan シリーズ」をご参照ください。

エラーコード

呼び出しが失敗した場合は、「エラーメッセージ」を参照してトラブルシューティングを行ってください。

ビデオアクセス構成

ドメイン名ホワイトリストの設定:ご利用の業務システムがビデオリンクにアクセスできるようにする

生成された動画は Alibaba Cloud OSS に保存されます。各動画には、https://dashscope-result-xx.oss-cn-xxxx.aliyuncs.com/xxx.mp4 のような OSS リンクが割り当てられます。OSS リンクはパブリックアクセスに対応しており、動画のダウンロードに使用できます。このリンクは 24 時間のみ有効です。

ご利用の業務システムに高いセキュリティ要件があり、Alibaba Cloud OSS リンクにアクセスできない場合は、パブリックアクセス用のホワイトリストを設定する必要があります。ビデオリンクにアクセスするには、以下のドメイン名をホワイトリストに追加してください。

# OSS ドメイン名リスト
dashscope-result-bj.oss-cn-beijing.aliyuncs.com
dashscope-result-hz.oss-cn-hangzhou.aliyuncs.com
dashscope-result-sh.oss-cn-shanghai.aliyuncs.com
dashscope-result-wlcb.oss-cn-wulanchabu.aliyuncs.com
dashscope-result-zjk.oss-cn-zhangjiakou.aliyuncs.com
dashscope-result-sz.oss-cn-shenzhen.aliyuncs.com
dashscope-result-hy.oss-cn-heyuan.aliyuncs.com
dashscope-result-cd.oss-cn-chengdu.aliyuncs.com
dashscope-result-gz.oss-cn-guangzhou.aliyuncs.com
dashscope-result-wlcb-acdr-1.oss-cn-wulanchabu-acdr-1.aliyuncs.com