すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Wanxiang - 一般ビデオ編集 API リファレンス

最終更新日:Feb 11, 2026

Wanxiang 一般ビデオ編集モデルは、テキスト、画像、ビデオなど複数の入力モダリティをサポートし、さまざまなビデオ生成および編集タスクを実行できます。

関連ドキュメント: ユーザーガイド

範囲

正常に API を呼び出すためには、モデル、エンドポイント URL、API キーがすべて同一リージョンに属している必要があります。クロスリージョンでの呼び出しは失敗します。

説明

このトピックのサンプルコードはシンガポールリージョン向けです。

HTTP 呼び出し

タスク処理には約 5~10 分かかります。そのため、API は非同期呼び出しを採用しています。処理手順は「タスクの作成」と「結果のポーリング」の 2 つのコアステップで構成されます。手順は以下のとおりです:

ステップ 1:タスクを作成してタスク ID を取得

シンガポール

POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

北京

POST https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

リクエストパラメーター

複数画像リファレンス

シンガポールおよび中国 (北京) リージョンの API キーは異なります。詳細については、「API キーおよび API ホストの取得
以下の URL はシンガポールリージョン向けです。中国 (北京) リージョンのモデルを使用する場合は、URL を以下に置き換えてください:https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "image_reference",
        "prompt": "ビデオでは、霧に包まれた古代の森から、女の子が優雅に歩き出てきます。その足取りは軽やかで、カメラは彼女のしなやかな動きの瞬間を捉えます。彼女が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが顔に広がります。この光と影が交差する一瞬に凍結されたシーンは、彼女と自然との素晴らしい出会いを記録しています。",
        "ref_images_url": [
            "http://wanx.alicdn.com/material/20250318/image_reference_2_5_16.png",
            "http://wanx.alicdn.com/material/20250318/image_reference_1_5_16.png"
        ]
    },
    "parameters": {
        "prompt_extend": true,
        "obj_or_bg": ["obj","bg"],
        "size": "1280*720"
    }
}'

ビデオ再ペイント

シンガポールおよび中国 (北京) リージョンの API キーは異なります。詳細については、「API キーおよび API ホストの取得
以下の URL はシンガポールリージョン向けです。中国 (北京) リージョンのモデルを使用する場合は、URL を以下に置き換えてください:https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_repainting",
        "prompt": "ビデオでは、紳士が運転する黒色のステampunk 風の自動車が映し出されます。車体にはギアや銅管が装飾されており、背景には蒸気で動くキャンディ工場とレトロな要素が描かれ、ヴィンテージで遊び心あふれるシーンが演出されています。",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_repainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "control_condition": "depth"
    }
}'

ローカル編集

シンガポールおよび中国 (北京) リージョンの API キーは異なります。詳細については、「API キーおよび API ホストの取得
以下の URL はシンガポールリージョン向けです。中国 (北京) リージョンのモデルを使用する場合は、URL を以下に置き換えてください:https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_edit",
        "prompt": "ビデオでは、パリ風のフランスカフェで、スーツを着たライオンが優雅にコーヒーを飲んでいます。ライオンは片手にコーヒーカップを持ち、リラックスした表情でそっと一口啜っています。カフェは洗練された装飾が施されており、柔らかな色調と暖かい照明がライオンのいるエリアを照らしています。",
        "mask_image_url": "http://wanx.alicdn.com/material/20250318/video_edit_1_mask.png",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_edit_2.mp4",
        "mask_frame_id": 1
    },
    "parameters": {
        "prompt_extend": false,
        "mask_type": "tracking",
        "expand_ratio": 0.05
    }
}'

ビデオ拡張

シンガポールおよび中国 (北京) リージョンの API キーは異なります。詳細については、「API キーおよび API ホストの取得
以下の URL はシンガポールリージョン向けです。中国 (北京) リージョンのモデルを使用する場合は、URL を以下に置き換えてください:https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_extension",
        "prompt": "サングラスをかけた犬が路上でスケートボードに乗っている様子、3D カートゥーン。",
        "first_clip_url": "http://wanx.alicdn.com/material/20250318/video_extension_1.mp4"
    },
    "parameters": {
        "prompt_extend": false
    }
}'

ビデオアウトペインティング

シンガポールおよび中国 (北京) リージョンの API キーは異なります。詳細については、「API キーおよび API ホストの取得
以下の URL はシンガポールリージョン向けです。中国 (北京) リージョンのモデルを使用する場合は、URL を以下に置き換えてください:https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_outpainting",
        "prompt": "上品な女性が情熱を持ってヴァイオリンを演奏しており、その背後にはフルオーケストラが演奏しています。",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_outpainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "top_scale": 1.5,
        "bottom_scale": 1.5,
        "left_scale": 1.5,
        "right_scale": 1.5
    }
}'
リクエストヘッダー

Content-Type 文字列 (必須)

リクエストのコンテンツタイプ。値は必ず application/json である必要があります。

Authorization 文字列 (必須)

Model Studio API キーを使用した認証資格情報。

例: Bearer sk-xxxx

X-DashScope-Async 文字列 (必須)

非同期処理を有効化します。HTTP リクエストは非同期処理のみをサポートしているため、値は必ず enable である必要があります。

重要

このヘッダーが含まれていない場合、「current user api does not support synchronous calls」エラーが返されます。

リクエストボディ

複数画像リファレンス

model 文字列 (必須)

モデル名。例: wan2.1-vace-plus

input オブジェクト (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt 文字列(必須)

生成されるビデオにおける望ましい要素および視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で記述でき、最大 800 文字までです。中国語の 1 文字または英字 1 文字はそれぞれ 1 文字としてカウントされます。超過分は自動的に切り捨てられます。

プロンプト技法の詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function 文字列(必須)

機能名を指定するパラメーターです。複数画像リファレンスの場合、この値を image_reference に設定します。

複数画像リファレンス機能は、最大 3 枚のリファレンス画像をサポートします。画像の内容には、人物、動物、衣装、シーンなどのエンティティおよびバックグラウンドが含まれます。prompt パラメーターを使用して、望ましいビデオの内容を記述します。モデルは、複数の画像を統合して一貫性のあるビデオを生成します。

ref_images_url 文字列配列 (必須)

入力リファレンス画像の URL の配列。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

1~3 枚のリファレンス画像を指定できます。3 枚を超える画像を指定した場合、先頭の 3 枚のみが入力として使用されます。

画像要件:

  • 画像フォーマット: JPG、JPEG、PNG、BMP、TIFF、WEBP。

  • 画像解像度: 幅および高さは 360~2,000 ピクセルの間である必要があります。

  • 画像サイズ: 10 MB を超えてはいけません。

  • URL には中国語文字を含めないでください。

推奨事項:

  • リファレンス画像からエンティティを使用する場合、各画像には 1 つのエンティティのみを含めるよう推奨します。バックグラウンドは白または単色など、エンティティをより際立たせるために純色であることが望ましいです。

  • リファレンス画像からバックグラウンドを使用する場合、バックグラウンド画像は最大 1 枚までで、エンティティオブジェクトを含めてはいけません。

parameters オブジェクト (任意)

ウォーターマーク設定などのビデオ処理パラメーター。

プロパティ

obj_or_bg 文字列配列 (任意)

各リファレンス画像の目的を識別するパラメーターであり、ref_images_url パラメーターと 1 対 1 で対応します。配列内の各要素は、対応する画像が「エンティティ」か「バックグラウンド」かを示します:

  • obj: 画像はエンティティリファレンスとして使用されます。

  • bg: 画像はバックグラウンドリファレンスとして使用されます。バックグラウンドリファレンスは最大 1 枚まで許可されます。

注意事項:

  • このパラメーターの指定を推奨します。配列の長さは ref_images_url と一致させる必要があります。そうでない場合、エラーが報告されます。

  • ref_images_url が 1 要素の配列である場合に限り、このパラメーターを省略できます。この場合、デフォルト値は ["obj"] となります。

例: ["obj", "obj", "bg"]。

size 文字列 (任意)

生成されるビデオの解像度(幅×高さ)。現在、モデルは 720P ビデオの生成をサポートしています。有効な値:

  • 1280*720 (デフォルト): 縦横比は 16:9。幅は 1280 ピクセル、高さは 720 ピクセル。

  • 720*1280: 縦横比は 9:16。

  • 960*960: 縦横比は 1:1。

  • 832*1088: 縦横比は 3:4。

  • 1088*832: 縦横比は 4:3。

duration 整数 (任意)

生成されるビデオの秒単位の再生時間。このパラメーターは固定値 5 であり、変更できません。モデルは常に 5 秒間のビデオを生成します。

prompt_extend ブール値 (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、大規模言語モデル(LLM)が入力プロンプトを再書き込みします。これは短いプロンプトの生成品質を大幅に向上させますが、処理時間が延長されます。

  • true (デフォルト): プロンプトの再書き込みを有効にします。

  • false: プロンプトの再書き込みを無効にします。

seed 整数 (任意)

乱数シードで、生成されるコンテンツのランダム性を制御します。シードパラメーターの値の範囲は [0, 2147483647] です。

シードを指定しない場合、アルゴリズムが自動的に乱数を生成してシードとして使用します。比較的安定したコンテンツを生成したい場合は、同じシードパラメーター値を使用してください。

watermark ブール値 (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークは画像の右下隅に表示され、「AI-generated」という文字が記載されます。

  • false (デフォルト): ウォーターマークを追加しません。

  • true: ウォーターマークを追加します。

ビデオ再レンダリング

model 文字列 (必須)

モデル名。例: wan2.1-vace-plus

input オブジェクト (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt 文字列(必須)

生成されるビデオにおける望ましい要素および視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で記述でき、最大 800 文字までです。中国語の 1 文字または英字 1 文字はそれぞれ 1 文字としてカウントされます。超過分は自動的に切り捨てられます。

プロンプト技法の詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function 文字列(必須)

機能名です。ビデオ再ペイントの場合、値を video_repainting に設定します。

ビデオ再ペイントは、入力ビデオからエンティティのポーズおよび動作、構図および動きの輪郭、スケッチ構造を抽出します。その後、これらの情報をテキストプロンプトと組み合わせて、同じダイナミックな特徴を持つ新しいビデオを生成します。また、入力ビデオのエンティティをリファレンス画像で置き換えることも可能で、たとえば、元の動作を維持したままキャラクターの外見を変更できます。

video_url 文字列 (必須)

入力ビデオの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオ要件:

  • ビデオフォーマット: MP4。

  • ビデオフレームレート: 16 FPS 以上。

  • ビデオサイズ: 50 MB を超えてはいけません。

  • ビデオ再生時間: 5 秒を超えてはいけません。再生時間が長い場合、先頭の 5 秒のみが使用されます。

  • URL には中国語文字を含めないでください。

出力ビデオの解像度について:

  • 入力ビデオの解像度が 720P 以下の場合、出力は元の解像度を保持します。

  • 入力ビデオの解像度が 720P より高い場合、元の縦横比を維持したまま 720P 以下にスケールダウンされます。

出力ビデオの再生時間について:

  • 出力ビデオの再生時間は入力ビデオと同じですが、最大 5 秒までです。

  • 例: 入力ビデオが 3 秒の場合、出力も 3 秒になります。入力が 6 秒の場合、出力は先頭の 5 秒になります。

ref_images_url 文字列配列 (任意)

入力リファレンス画像の URL の配列。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

現在、1 枚 のみのリファレンス画像がサポートされています。この画像は、入力ビデオのエンティティを置き換えるために使用することを推奨します。

画像要件:

  • 画像フォーマット: JPG、JPEG、PNG、BMP、TIFF、WEBP。

  • 画像解像度: 幅および高さは 360~2,000 ピクセルの間である必要があります。

  • 画像サイズ: 10 MB を超えてはいけません。

  • URL には中国語文字を含めないでください。

推奨事項:

  • リファレンス画像からエンティティを使用する場合、各画像には 1 つのエンティティのみを含めるよう推奨します。バックグラウンドは白または単色など、エンティティをより際立たせるために純色であることが望ましいです。

parameters オブジェクト (必須)

ウォーターマーク設定などのビデオ処理パラメーター。

プロパティ

control_condition 文字列 (必須)

ビデオ特徴抽出の手法を設定します。

  • posebodyface: 入力ビデオのエンティティの表情および身体の動きを抽出します。表情の詳細を保持する必要があるシナリオに適しています。

  • posebody: 入力ビデオのエンティティの身体の動きを抽出しますが、表情は除外します。身体の動きのみを制御する必要があるシナリオに使用します。

  • depth: 入力ビデオの構図および動きの輪郭を抽出します。

  • scribble: 入力ビデオのスケッチ構造を抽出します。

strength 浮動小数点数 (任意)

control_condition 特徴抽出手法が生成ビデオに適用する制御強度を調整します。

デフォルト値は 1.0 です。値の範囲は [0.0, 1.0] です。

値が大きいほど、生成ビデオは元のビデオの動作および構図により近くなります。値が小さいほど、創造的な自由度が高まります。

prompt_extend ブール値 (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これは短いプロンプトの生成品質を大幅に向上させますが、処理時間が延長されます。

  • true (デフォルト): プロンプトの再書き込みを有効にします。

  • false: プロンプトの再書き込みを無効にします。(推奨)

テキストによる説明が入力ビデオの内容と不一致の場合、モデルがプロンプトを誤って解釈する可能性があります。生成の一貫性および正確性を向上させるため、プロンプトの再書き込みを無効にし、prompt に明確かつ具体的な説明を提供してください。

seed 整数 (任意)

乱数シードで、生成されるコンテンツのランダム性を制御します。シードパラメーターの値の範囲は [0, 2147483647] です。

シードを指定しない場合、アルゴリズムが自動的に乱数を生成してシードとして使用します。比較的安定したコンテンツを生成したい場合は、同じシードパラメーター値を使用してください。

watermark ブール値 (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークは画像の右下隅に表示され、「AI-generated」という文字が記載されます。

  • false (デフォルト): ウォーターマークを追加しません。

  • true: ウォーターマークを追加します。

ローカル編集

model 文字列 (必須)

モデル名。例: wan2.1-vace-plus

input オブジェクト (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt 文字列(必須)

生成されるビデオにおける望ましい要素および視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で記述でき、最大 800 文字までです。中国語の 1 文字または英字 1 文字はそれぞれ 1 文字としてカウントされます。超過分は自動的に切り捨てられます。

プロンプト技法の詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function 文字列(必須)

機能名です。ローカル編集の場合、値を video_edit に設定します。

ローカル編集では、入力ビデオの指定領域に対して要素の追加、変更、削除を行うことができます。また、編集領域のエンティティまたはバックグラウンドを置き換えることで、細かいレベルのビデオ編集を実現できます。

video_url 文字列 (必須)

入力ビデオの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオ要件:

  • ビデオフォーマット: MP4。

  • ビデオフレームレート: 16 FPS 以上。

  • ビデオサイズ: 50 MB を超えてはいけません。

  • ビデオ再生時間: 5 秒を超えてはいけません。再生時間が長い場合、先頭の 5 秒のみが使用されます。

  • URL には中国語文字を含めないでください。

出力ビデオの解像度について:

  • 入力ビデオの解像度が 720P 以下の場合、出力は元の解像度を保持します。

  • 入力ビデオの解像度が 720P より高い場合、元の縦横比を維持したまま 720P 以下にスケールダウンされます。

出力ビデオの再生時間について:

  • 出力ビデオの再生時間は入力ビデオと同じですが、最大 5 秒までです。

  • 例: 入力ビデオが 3 秒の場合、出力も 3 秒になります。入力が 6 秒の場合、出力は先頭の 5 秒になります。

ref_images_url 文字列配列 (任意)

入力リファレンス画像の URL の配列。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

現在、1 枚 のみのリファレンス画像がサポートされています。この画像は、入力ビデオの対応するコンテンツを置き換えるためにエンティティまたはバックグラウンドとして使用できます。

画像要件:

  • 画像フォーマット: JPG、JPEG、PNG、BMP、TIFF、WEBP。

  • 画像解像度: 幅および高さは 360~2,000 ピクセルの間である必要があります。

  • 画像サイズ: 10 MB を超えてはいけません。

  • URL には中国語文字を含めないでください。

推奨事項:

  • リファレンス画像からエンティティを使用する場合、各画像には 1 つのエンティティのみを含めるよう推奨します。バックグラウンドは白または単色など、エンティティをより際立たせるために純色であることが望ましいです。

  • リファレンス画像からバックグラウンドを使用する場合、バックグラウンド画像にはエンティティオブジェクトを含めてはいけません。

mask_image_url 文字列 (任意)

マスク画像の URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

このパラメーターは、ビデオ編集エリアを指定します。このパラメーターまたは mask_video_url パラメーターのいずれかを指定する必要があります。このパラメーターを推奨します

マスク画像の白い領域(画素値が正確に [255, 255, 255] の領域)は編集対象領域を示し、黒い領域(画素値が正確に [0, 0, 0] の領域)は保持対象領域を示します。

画像要件:

  • 画像フォーマット: JPG、JPEG、PNG、BMP、TIFF、WEBP。

  • 画像解像度: 入力ビデオ(video_url)の解像度と完全に一致する必要があります。

  • 画像サイズ: 10 MB を超えてはいけません。

  • URL には中国語文字を含めないでください。

mask_frame_id 整数 (任意)

mask_image_url が空でない場合にのみ使用されるパラメーターです。マスクされたオブジェクトが出現するフレームを「フレーム ID」で特定します。

デフォルト値は 1 であり、ビデオの最初のフレームを意味します。

値の範囲は [1, max_frame_id] であり、max_frame_id = 入力ビデオのフレームレート × 入力ビデオの再生時間 + 1 です。

たとえば、フレームレートが 16 FPS、再生時間が 5 秒の入力ビデオ(video_url)の場合、フレーム総数は 81(16×5 + 1)となり、max_frame_id の値は 81 となります。

mask_video_url 文字列 (任意)

マスクビデオの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

このパラメーターは、動画の編集対象エリアを指定します。このパラメーターまたはmask_image_urlパラメーターのいずれかを指定する必要があります。

マスクビデオは、入力ビデオ(video_url)と同一のビデオフォーマット、フレームレート、解像度、長さである必要があります。

マスクビデオの白い領域(画素値が正確に [255, 255, 255] の領域)は編集対象領域を示し、黒い領域(画素値が正確に [0, 0, 0] の領域)は保持対象領域を示します。

parameters オブジェクト (任意)

ウォーターマーク設定などのビデオ処理パラメーター。

プロパティ

control_condition 文字列 (任意)

ビデオ特徴抽出の手法を設定します。デフォルト値は ""(空文字列)であり、抽出を行わないことを意味します。

  • posebodyface: 入力ビデオのエンティティの表情および身体の動きを抽出します。エンティティの顔がフレーム内で大きく、はっきりと見える特徴がある場合に適しています。

  • depth: 入力ビデオの構図および動きの輪郭を抽出します。

mask_type 文字列 (任意)

mask_image_url が空でない場合にのみ有効になるパラメーターです。編集領域の動作を指定します。

  • tracking (デフォルト): 編集領域がターゲットオブジェクトの軌跡に動的に追随します。移動するオブジェクトがあるシーンに適しています。

  • fixed: 編集領域は固定され、ビデオのコンテンツに応じて変化しません。

expand_ratio 浮動小数点数 (任意)

mask_typetracking に設定されている場合に適用され、マスク領域の外側への拡張比率を指定します。

値の範囲は [0.0, 1.0] です。デフォルト値は 0.05 です。デフォルト値の使用を推奨します。

値が小さいほど、マスク領域はターゲットオブジェクトにより密接にフィットします。値が大きいほど、マスク領域はより広範囲に拡張されます。

expand_mode 文字列 (任意)

mask_typetracking に設定されている場合に適用され、マスク領域の形状を指定します。

アルゴリズムは、入力マスク画像および選択された expand_mode に基づいて、対応する形状のマスクビデオを生成します。サポートされる値は以下のとおりです:

  • hull (デフォルト): ポリゴンモード。ポリゴンがマスクされたオブジェクトを囲みます。

  • bbox: バウンディングボックスモード。矩形がマスクされたオブジェクトを囲みます。

  • original: RAW モード。元のマスクされたオブジェクトの形状をできるだけ保持します。

size 文字列 (任意)

生成されるビデオの解像度(幅×高さ)。現在、モデルは 720P ビデオの生成をサポートしています。有効な値:

  • 1280*720 (デフォルト): 縦横比は 16:9。幅は 1280 ピクセル、高さは 720 ピクセル。

  • 720*1280: 縦横比は 9:16。

  • 960*960: 縦横比は 1:1。

  • 832*1088: 縦横比は 3:4。

  • 1088*832: 縦横比は 4:3。

duration 整数 (任意)

生成されるビデオの秒単位の再生時間。このパラメーターは固定値 5 であり、変更できません。モデルは常に 5 秒間のビデオを生成します。

prompt_extend ブール値 (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これは短いプロンプトの生成品質を大幅に向上させますが、処理時間が延長されます。

  • true (デフォルト): プロンプトの再書き込みを有効にします。

  • false: プロンプトの再書き込みを無効にします。(推奨)

テキストによる説明が入力ビデオの内容と不一致の場合、モデルがプロンプトを誤って解釈する可能性があります。生成の一貫性および正確性を向上させるため、プロンプトの再書き込みを無効にし、prompt に明確かつ具体的な説明を提供してください。

seed 整数 (任意)

乱数シードで、生成されるコンテンツのランダム性を制御します。シードパラメーターの値の範囲は [0, 2147483647] です。

シードを指定しない場合、アルゴリズムが自動的に乱数を生成してシードとして使用します。比較的安定したコンテンツを生成したい場合は、同じシードパラメーター値を使用してください。

watermark ブール値 (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークは画像の右下隅に表示され、「AI-generated」という文字が記載されます。

  • false (デフォルト): ウォーターマークを追加しません。

  • true: ウォーターマークを追加します。

ビデオ拡張

model 文字列 (必須)

モデル名。例: wan2.1-vace-plus

input オブジェクト (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt 文字列(必須)

生成されるビデオにおける望ましい要素および視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で記述でき、最大 800 文字までです。中国語の 1 文字または英字 1 文字はそれぞれ 1 文字としてカウントされます。超過分は自動的に切り捨てられます。

プロンプト技法の詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function 文字列(必須)

機能名です。ビデオ拡張の場合、値を video_extension に設定します。

ビデオ拡張は、画像またはビデオに基づいて連続したコンテンツを生成します。また、リファレンスビデオから動作や構図などのダイナミックな特徴を抽出し、同様の動きを持つビデオの生成をガイドします。

拡張されたビデオの総再生時間は 5 秒です。注: これは元のビデオに追加される 5 秒ではなく、最終出力ビデオの総再生時間です。

first_frame_url 文字列 (任意)

最初のフレーム画像の URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

画像要件:

  • 画像フォーマット: JPG、JPEG、PNG、BMP、TIFF、WEBP。

  • 画像解像度: 幅および高さは 360~2,000 ピクセルの間である必要があります。

  • 画像サイズ: 10 MB を超えてはいけません。

  • URL には中国語文字を含めないでください。

last_frame_url 文字列(任意)

最後のフレーム画像の URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

画像要件:

  • 画像フォーマット: JPG、JPEG、PNG、BMP、TIFF、WEBP。

  • 画像解像度: 幅および高さは 360~2,000 ピクセルの間である必要があります。

  • 画像サイズ: 10 MB を超えてはいけません。

  • URL には中国語文字を含めないでください。

first_clip_url 文字列 (任意)

最初のビデオセグメントの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオ要件:

  • ビデオフォーマット: MP4。

  • ビデオフレームレート: 16 FPS 以上。また、first_clip_urllast_clip_url の両方を指定する場合、両方のクリップのフレームレートを揃えることを推奨します。

  • ビデオサイズ: 50 MB を超えてはいけません。

  • ビデオ再生時間: 3 秒を超えてはいけません。再生時間が長い場合、先頭の 3 秒のみが使用されます。first_clip_urllast_clip_url の両方が指定されている場合、合計再生時間は 3 秒を超えてはいけません。

  • URL には中国語文字を含めないでください。

出力ビデオの解像度について:

  • 入力ビデオの解像度が 720P 以下の場合、出力は元の解像度を保持します。

  • 入力ビデオの解像度が 720P より高い場合、元の縦横比を維持したまま 720P 以下にスケールダウンされます。

last_clip_url 文字列(任意)

最後のビデオセグメントの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://help-static-aliyun-doc.aliyuncs.com/xxx.mp3。

ビデオ要件:

  • ビデオフォーマット: MP4。

  • ビデオフレームレート: 16 FPS 以上。first_clip_urllast_clip_url を併用する場合、両方のクリップのフレームレートを揃えることを推奨します。

  • ビデオサイズ: 50 MB を超えてはいけません。

  • ビデオ再生時間: 3 秒を超えてはいけません。再生時間が長い場合、先頭の 3 秒のみが使用されます。first_clip_urllast_clip_url の両方が指定されている場合、合計再生時間は 3 秒を超えてはいけません。

  • URL には中国語文字を含めないでください。

出力ビデオの解像度について:

  • 入力ビデオの解像度が 720P 以下の場合、出力は元の解像度を保持します。

  • 入力ビデオの解像度が 720P より高い場合、元の縦横比を維持したまま 720P 以下にスケールダウンされます。

video_url 文字列 (任意)

入力ビデオの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://help-static-aliyun-doc.aliyuncs.com/xxx.mp3。

このビデオは主にモーション特徴の抽出に使用されます。first_frame_urllast_frame_urlfirst_clip_url、および last_clip_url パラメーターと併用して、類似したモーションを持つ拡張ビデオの生成をガイドします。

ビデオ要件:

  • ビデオフォーマット: MP4。

  • ビデオフレームレート: 16 FPS 以上で、前後のクリップと整合性がある必要があります。

  • ビデオ解像度: 前後のフレームおよびクリップと整合性がある必要があります。

  • ビデオサイズ: 50 MB を超えてはいけません。

  • ビデオ再生時間: 5 秒を超えてはいけません。再生時間が長い場合、先頭の 5 秒のみが使用されます。

  • URL には中国語文字を含めないでください。

parameters オブジェクト (任意)

出力ビデオの解像度などのビデオ処理パラメーター。

プロパティ

control_condition 文字列 (任意)

ビデオ特徴抽出の手法を設定します。video_url が指定されている場合、このパラメーターは必須です。デフォルト値は ""(空文字列)であり、抽出を行わないことを意味します。

  • posebodyface: 入力ビデオからエンティティの表情および身体の動きを抽出します。

  • depth: 入力ビデオの構図および動きの輪郭を抽出します。

duration 整数 (任意)

生成されるビデオの秒単位の再生時間。このパラメーターは固定値 5 であり、変更できません。モデルは常に 5 秒間のビデオを生成します。

prompt_extend ブール値 (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これは短いプロンプトの生成品質を大幅に向上させますが、処理時間が延長されます。

  • true (デフォルト): プロンプトの再書き込みを有効にします。

  • false: プロンプトの再書き込みを無効にします。(推奨)

テキストによる説明が入力ビデオの内容と不一致の場合、モデルがプロンプトを誤って解釈する可能性があります。生成の一貫性および正確性を向上させるため、プロンプトの再書き込みを無効にし、prompt に明確かつ具体的な説明を提供してください。

seed 整数 (任意)

乱数シードで、生成されるコンテンツのランダム性を制御します。シードパラメーターの値の範囲は [0, 2147483647] です。

シードを指定しない場合、アルゴリズムが自動的に乱数を生成してシードとして使用します。比較的安定したコンテンツを生成したい場合は、同じシードパラメーター値を使用してください。

watermark ブール値 (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークは画像の右下隅に表示され、「AI-generated」という文字が記載されます。

  • false (デフォルト): ウォーターマークを追加しません。

  • true: ウォーターマークを追加します。

ビデオアウトペインティング

model 文字列 (必須)

モデル名。例: wan2.1-vace-plus

input オブジェクト (必須)

プロンプトなどの基本的な入力情報。

プロパティ

prompt 文字列(必須)

生成されるビデオにおける望ましい要素および視覚的特徴を記述するプロンプト。

プロンプトは中国語または英語で記述でき、最大 800 文字までです。中国語の 1 文字または英字 1 文字はそれぞれ 1 文字としてカウントされます。超過分は自動的に切り捨てられます。

プロンプト技法の詳細については、「ビデオ生成プロンプトガイド」をご参照ください。

function 文字列(必須)

使用する機能を指定します。ビデオアウトペインティングの場合、このパラメーターを video_outpainting に設定します。

ビデオフレーム拡張は、上下左右方向への比例的なビデオ拡張を可能にします。

video_url 文字列 (必須)

入力ビデオの URL。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオ要件:

  • ビデオフォーマット: MP4。

  • ビデオフレームレート: 16 FPS 以上。

  • ビデオサイズ: 50 MB を超えてはいけません。

  • ビデオ再生時間: 5 秒を超えてはいけません。再生時間が長い場合、先頭の 5 秒のみが使用されます。

  • URL には中国語文字を含めないでください。

出力ビデオの解像度について:

  • 入力ビデオの解像度が 720P 以下の場合、出力は元の解像度を保持します。

  • 入力ビデオの解像度が 720P より高い場合、元の縦横比を維持したまま 720P 以下にスケールダウンされます。

出力ビデオの再生時間について:

  • 出力ビデオの再生時間は入力ビデオと同じですが、最大 5 秒までです。

  • 例: 入力ビデオが 3 秒の場合、出力も 3 秒になります。入力が 6 秒の場合、出力は先頭の 5 秒になります。

parameters オブジェクト (任意)

拡張比率などのビデオ処理パラメーター。

プロパティ

top_scale 浮動小数点数 (任意)

ビデオフレームを中央に配置し、上方向へ比例的に拡大します。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 であり、拡大を行わないことを意味します。

bottom_scale 浮動小数点数 (任意)

ビデオフレームを中央に配置し、縦横比を維持して縮小します。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 であり、拡大を行わないことを意味します。

left_scale 浮動小数点数 (任意)

ビデオフレームを中央に配置し、ビデオを左側に縦横比を維持してスケーリングします。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 であり、拡大を行わないことを意味します。

right_scale 浮動小数点数 (任意)

ビデオフレームを中央に配置し、右方向へ比例的に拡大します。

値の範囲は [1.0, 2.0] です。デフォルト値は 1.0 であり、拡大を行わないことを意味します。

duration 整数 (任意)

生成されるビデオの秒単位の再生時間。このパラメーターは固定値 5 であり、変更できません。モデルは常に 5 秒間のビデオを生成します。

prompt_extend ブール値 (任意)

プロンプトの再書き込みを有効にするかどうかを指定します。有効にすると、LLM が入力プロンプトを再書き込みします。これは短いプロンプトの生成品質を大幅に向上させますが、処理時間が延長されます。

  • true (デフォルト): プロンプトの再書き込みを有効にします。

  • false: プロンプトの再書き込みを無効にします。(推奨)

テキストによる説明が入力ビデオの内容と不一致の場合、モデルがプロンプトを誤って解釈する可能性があります。生成の一貫性および正確性を向上させるため、プロンプトの再書き込みを無効にし、prompt に明確かつ具体的な説明を提供してください。

seed 整数 (任意)

乱数シードで、生成されるコンテンツのランダム性を制御します。シードパラメーターの値の範囲は [0, 2147483647] です。

シードを指定しない場合、アルゴリズムが自動的に乱数を生成してシードとして使用します。比較的安定したコンテンツを生成したい場合は、同じシードパラメーター値を使用してください。

watermark ブール値 (任意)

ウォーターマークを追加するかどうかを指定します。ウォーターマークは画像の右下隅に表示され、「AI-generated」という文字が記載されます。

  • false (デフォルト): ウォーターマークを追加しません。

  • true: ウォーターマークを追加します。

レスポンスパラメーター

成功時のレスポンス

task_id を保存し、タスクのステータスおよび結果を照会します。

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

エラー時のレスポンス

タスクの作成に失敗しました。問題を解決するには、「エラーコード」をご参照ください。

{
    "code": "InvalidApiKey",
    "message": "API キーが提供されていません。",
    "request_id": "7438d53d-6eb8-4596-8835-xxxxxx"
}

output オブジェクト

タスクの出力情報。

プロパティ

task_id 文字列

タスクの ID。最大 24 時間まで照会可能です。

task_status 文字列

タスクのステータス。

列挙値

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN: タスクが存在しないか、ステータスが不明です

request_id 文字列

リクエストを一意に識別する ID。トレースおよびトラブルシューティングに使用します。

code 文字列

エラーコード。リクエストが失敗した場合にのみ返されます。「エラーコード」の詳細をご参照ください。

message 文字列

詳細なエラーメッセージ。リクエストが失敗した場合にのみ返されます。「エラーコード」の詳細をご参照ください。

ステップ 2:タスク ID で結果を照会

シンガポール

GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}

北京

GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

リクエストパラメーター

タスク結果の照会

{task_id} を、前の API 呼び出しで返された task_id の値に置き換えます。

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"
リクエストヘッダー

Authorization 文字列 (必須)

Model Studio API キーを使用した認証資格情報。

例: Bearer sk-xxxx

URL パスパラメーター

task_id 文字列 (必須)

照会対象のタスクの ID。

レスポンスパラメーター

タスク成功時

タスクデータ(タスクステータスやビデオ URL など)は 24 時間のみ保持され、その後自動的にパージされます。生成されたビデオは速やかに保存してください。

{
    "request_id": "851985d0-fbba-9d8d-a17a-xxxxxx",
    "output": {
        "task_id": "208e2fd1-fcb4-4adf-9fcc-xxxxxx",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-05-15 16:14:44.723",
        "scheduled_time": "2025-05-15 16:14:44.750",
        "end_time": "2025-05-15 16:20:09.389",
        "video_url": "https://dashscope-result-wlcb.oss-cn-wulanchabu.aliyuncs.com/xxx.mp4?xxxxxx",
        "orig_prompt": "ビデオでは、霧に包まれた古代の森から、女の子が優雅に歩き出てきます。その足取りは軽やかで、カメラは彼女のしなやかな動きの瞬間を捉えます。女の子が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが顔に広がります。この光と影が交差する一瞬に凍結されたシーンは、彼女と自然との素晴らしい出会いを記録しています。",
        "actual_prompt": "薄い色のロングドレスを着た女の子が、霧に包まれた古代の森からゆっくりと歩き出てきます。その足取りはダンスのように軽やかで、少しカールしたロングヘア、繊細な顔立ち、輝く瞳が特徴です。カメラは彼女の動きを追いかけて、しなやかな動きの瞬間を捉えます。彼女が立ち止まり、振り向いて緑豊かな森を見回すと、驚きと喜びの笑みが顔に広がります。葉を通して差し込む日差しが、斑模様の影を落とし、人間と自然の調和という美しい瞬間を凍結します。スタイルは新鮮で自然なポートレートで、中景と全景を組み合わせ、水平視点とわずかなカメラ移動を用いて表現されています。"
    },
    "usage": {
        "video_duration": 5,
        "video_ratio": "standard",
        "video_count": 1
    }
}

タスク失敗時

タスクが失敗した場合、task_status は FAILED に設定され、エラーコードおよびメッセージが付与されます。「エラーコード」をご参照ください。

{
    "request_id": "e5d70b02-ebd3-98ce-9fe8-759d7d7b107d",
    "output": {
        "task_id": "86ecf553-d340-4e21-af6e-a0c6a421c010",
        "task_status": "FAILED",
        "code": "InvalidParameter",
        "message": "サイズが一致していません xxxxxx"
    }
}

output オブジェクト

タスクの出力情報。

プロパティ

task_id 文字列

タスクの ID。最大 24 時間まで照会可能です。

task_status 文字列

タスクのステータス。

列挙値

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN: タスクが存在しないか、ステータスが不明です

submit_time 文字列

タスクの送信時刻。時刻は UTC+08 です。形式: YYYY-MM-DD HH:mm:ss.SSS

scheduled_time 文字列

タスクの実行開始時刻。時刻は UTC+08 です。形式: YYYY-MM-DD HH:mm:ss.SSS

end_time 文字列

タスクの完了時刻。時刻は UTC+08 です。形式: YYYY-MM-DD HH:mm:ss.SSS

video_url 文字列

ビデオ URL。リンクの有効期限は 24 時間です。この URL を使用してビデオをダウンロードできます。出力ビデオのフォーマットは MP4(H.264 エンコーディング)です。

orig_prompt 文字列

元の入力プロンプト。

actual_prompt 文字列

プロンプトの再書き込みが有効な場合に使用される実際のプロンプト。プロンプトの再書き込みが無効な場合、このフィールドは返されません。

code 文字列

エラーコード。リクエストが失敗した場合にのみ返されます。「エラーコード」の詳細をご参照ください。

message 文字列

詳細なエラーメッセージ。リクエストが失敗した場合にのみ返されます。「エラーコード」の詳細をご参照ください。

usage オブジェクト

出力の使用状況統計。成功した結果のみがカウントされます。

プロパティ

video_duration 整数

生成されるビデオの秒単位の再生時間。

video_ratio 文字列

生成されるビデオの縦横比。この値は固定で standard です。

video_count 整数

生成されるビデオの数。

request_id 文字列

リクエストを一意に識別する ID。トレースおよびトラブルシューティングに使用します。

制限事項

  • データ保持期間: タスクの task_id およびビデオの video_url は、24 時間のみ保持されます。この期間が過ぎると、照会やダウンロードができなくなります。

  • 音声サポート: モデルは現在、無音のビデオのみを生成し、オーディオ出力はサポートしていません。必要に応じて、音声合成 を使用して音声を生成できます。

  • ネットワークアクセス構成: ビデオリンクは Alibaba Cloud OSS に保存されています。セキュリティポリシーにより、業務システムが外部 OSS リンクにアクセスできない場合、以下の OSS ドメイン名をネットワークアクセスホワイトリストに追加してください。

    # OSS ドメイン名一覧
    dashscope-result-bj.oss-cn-beijing.aliyuncs.com
    dashscope-result-hz.oss-cn-hangzhou.aliyuncs.com
    dashscope-result-sh.oss-cn-shanghai.aliyuncs.com
    dashscope-result-wlcb.oss-cn-wulanchabu.aliyuncs.com
    dashscope-result-zjk.oss-cn-zhangjiakou.aliyuncs.com
    dashscope-result-sz.oss-cn-shenzhen.aliyuncs.com
    dashscope-result-hy.oss-cn-heyuan.aliyuncs.com
    dashscope-result-cd.oss-cn-chengdu.aliyuncs.com
    dashscope-result-gz.oss-cn-guangzhou.aliyuncs.com
    dashscope-result-wlcb-acdr-1.oss-cn-wulanchabu-acdr-1.aliyuncs.com

エラーコード

モデル呼び出しに失敗し、エラーメッセージが返された場合、「エラーメッセージ」をご参照ください。