すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Wan - ビデオ編集 (2.1)

最終更新日:Jun 04, 2026

Wan 2.1 統合ビデオ編集モデルは、テキスト、画像、動画など複数の入力モダリティをサポートし、幅広い動画生成および編集タスクに対応します。

関連ドキュメントユーザーガイド

範囲

正常に呼び出すには、モデル、エンドポイント URL、API キーが同一リージョンである必要があります。リージョンをまたいだ呼び出しは失敗します。

  • モデルを選択する: モデルのリージョンを確認します。

  • URL を選択する: モデルのリージョンに対応するエンドポイント URL を選択します。HTTP URL がサポートされています。

  • API キーを設定する: リージョンを選択し、API キーを取得して、環境変数に設定します。

説明

このトピックのサンプルコードはシンガポールリージョン用です。

重要

シンガポールリージョン向けのレガシドメイン https://dashscope-intl.aliyuncs.com はまもなく廃止されます。できるだけ早く新しいドメイン https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com に移行してください。

HTTP 呼び出し

統合ビデオ編集モデルの処理には 5~10 分かかります。そのため、API は非同期プロセスを採用しており、コアとなるステップは次のとおりです:「タスクを作成 → 結果をポーリング」

ステップ 1:タスクを作成する

シンガポール

POST https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

WorkspaceId は実際のワークスペース IDに置き換えてください。

北京

POST https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

リクエストパラメーター

マルチイメージリファレンス

シンガポールおよび中国 (北京) リージョンの API キーは異なります。API キーを作成
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンの場合は、代わりに次の URL を使用してください: https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "image_reference",
        "prompt": "In the video, a girl gracefully emerges from a misty, ancient forest. Her steps are light, and the camera captures her every nimble moment. When she stops to look at the lush woods around her, a smile of surprise and joy blossoms on her face. This scene, frozen in an interplay of light and shadow, records her wonderful encounter with nature.",
        "ref_images_url": [
            "http://wanx.alicdn.com/material/20250318/image_reference_2_5_16.png",
            "http://wanx.alicdn.com/material/20250318/image_reference_1_5_16.png"
        ]
    },
    "parameters": {
        "prompt_extend": true,
        "obj_or_bg": ["obj","bg"],
        "size": "1280*720"
    }
}'

ビデオの再描画

シンガポールおよび中国 (北京) リージョンの API キーは異なります。API キーを作成
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンの場合は、代わりに次の URL を使用してください: https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_repainting",
        "prompt": "The video shows a black steampunk-style car driven by a gentleman, adorned with gears and copper pipes. The background is a steam-powered candy factory with retro elements, creating a vintage and fun scene.",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_repainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "control_condition": "depth"
    }
}'

ローカル編集

シンガポールおよび中国 (北京) リージョンの API キーは異なります。API キーを作成
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンの場合は、代わりに次の URL を使用してください: https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_edit",
        "prompt": "The video shows a Parisian-style French cafe where a lion in a suit elegantly sips coffee. It holds a coffee cup in one hand, taking a gentle sip with a relaxed expression. The cafe is tastefully decorated, with soft hues and warm lighting illuminating the lion's area.",
        "mask_image_url": "http://wanx.alicdn.com/material/20250318/video_edit_1_mask.png",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_edit_2.mp4",
        "mask_frame_id": 1
    },
    "parameters": {
        "prompt_extend": false,
        "mask_type": "tracking",
        "expand_ratio": 0.05
    }
}'

ビデオ拡張

シンガポールおよび中国 (北京) リージョンの API キーは異なります。API キーを作成
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンの場合は、代わりに次の URL を使用してください: https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_extension",
        "prompt": "A dog wearing sunglasses skateboarding on the street, 3D cartoon.",
        "first_clip_url": "http://wanx.alicdn.com/material/20250318/video_extension_1.mp4"
    },
    "parameters": {
        "prompt_extend": false
    }
}'

ビデオアウトペインティング

シンガポールおよび中国 (北京) リージョンの API キーは異なります。API キーを作成
以下の URL はシンガポールリージョン用です。中国 (北京) リージョンの場合は、代わりに次の URL を使用してください: https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis
curl --location 'https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_outpainting",
        "prompt": "An elegant woman passionately plays the violin, with a full symphony orchestra behind her.",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_outpainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "top_scale": 1.5,
        "bottom_scale": 1.5,
        "left_scale": 1.5,
        "right_scale": 1.5
    }
}'
リクエストヘッダー

Content-Type string (必須)

リクエストのコンテンツタイプです。application/json である必要があります。

Authorization string (必須)

Model Studio API キーでリクエストを認証します。例:Bearer sk-xxxx。

X-DashScope-Async string (必須)

非同期処理を有効にします。HTTP リクエストでは非同期呼び出しのみがサポートされます。enable である必要があります。

重要

このリクエストヘッダーが欠落している場合、「current user api does not support synchronous calls」というエラーが返されます。

リクエスト本文

マルチイメージリファレンス

model string (必須)

モデル名です。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力です。

プロパティ

prompt string (必須)

生成された動画に含める要素や視覚的特徴を記述します。

中国語および英語をサポートしています。最大長は 800 文字で、中国語の文字や英字はそれぞれ 1 文字としてカウントされます。この制限を超えるテキストは自動的に切り捨てられます。

プロンプト作成のテクニックについては、「テキストから動画/画像から動画へのプロンプトガイド」をご参照ください。

function string (必須)

機能名です。マルチイメージリファレンスは image_reference に設定します。

マルチイメージリファレンスは最大 3 枚のリファレンス画像をサポートします。画像には人物、動物、衣類、シーンなどのエンティティやバックグラウンドを含めることができます。prompt を使用して目的の動画コンテンツを記述すると、モデルは複数の画像を組み合わせて一貫性のある動画コンテンツを生成できます。

ref_images_url array[string] (必須)

リファレンス画像 URL の配列です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.png。

1~3 枚のリファレンス画像を指定できます。3 枚を超える場合は、最初の 3 枚のみが使用されます。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは [360、2000] ピクセルの範囲内である必要があります。

  • サイズ:最大 10 MB。

  • URL に中国語の文字を含めてはいけません。

推奨事項:

  • エンティティのリファレンス画像を使用する場合、各画像には 1 つのエンティティのみを含めることを推奨します。エンティティをより明確にハイライトするために、背景は単色(例:白)にしてください。

  • リファレンス画像のバックグラウンドを使用する場合、バックグラウンド画像は 1 枚まで指定でき、エンティティオブジェクトを含んではいけません。

parameters object (任意)

ウォーターマーク設定などの動画処理用パラメーターです。

プロパティ

obj_or_bg array[string] (任意)

このパラメーターは、各リファレンス画像の目的を識別するために使用され、ref_images_url パラメーターと 1 対 1 に対応します。配列内の各要素は、対応する位置の画像が「サブジェクト」か「バックグラウンド」かを指定します。

  • obj:画像がリファレンスエンティティであることを示します。

  • bg:画像をバックグラウンドリファレンスとして指定します(最大 1 つまで許可されます)。

使用上の注意:

  • このパラメーターを渡すことを推奨します。その長さは ref_images_url と同じでなければならず、そうでない場合はエラーが報告されます。

  • ref_images_url が単一要素の配列の場合、このパラメーターは省略可能で、デフォルト値は ["obj"] になります。

例:["obj", "obj", "bg"]。

size string (任意)

生成される動画の解像度(幅*高さ)です。モデルは 720p 動画の生成をサポートしています。有効な値:

  • 1280*720 (デフォルト):動画の縦横比は 16:9 で、1280 が幅、720 が高さです。

  • 720*1280:動画の縦横比は 9:16 です。

  • 960*960:動画の縦横比は 1:1 です。

  • 832*1088:動画の縦横比は 3:4 です。

  • 1088*832:動画の縦横比は 4:3 です。

duration integer (任意)

生成される動画の持続時間(秒単位)です。この値は 5 秒に固定されています。

prompt_extend bool (任意)

プロンプトリライトを有効にするかどうかを指定します。有効にすると、大規模言語モデル (LLM) が入力プロンプトを書き換えます。これにより短いプロンプトの結果が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト):プロンプトリライトを有効にします。

  • false:プロンプトリライトを無効にします。

seed integer (任意)

乱数シードは、モデルによって生成されるコンテンツのランダム性を制御します。seed パラメーターの値範囲は [0, 2147483647] です。

シードを指定しない場合、自動的に生成されます。再現可能な結果を得るには、複数のリクエストで同じシード値を使用してください。

watermark bool (任意)

画像の右下隅に「AI 生成」ウォーターマークを追加するかどうかを指定します。

  • false (デフォルト):ウォーターマークを追加しません。

  • true:ウォーターマークを追加します。

ビデオ再塗装

model string (必須)

モデル名です。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力です。

プロパティ

prompt string (必須)

生成された動画に含める要素や視覚的特徴を記述します。

中国語および英語をサポートしています。最大長は 800 文字で、中国語の文字や英字はそれぞれ 1 文字としてカウントされます。この制限を超えるテキストは自動的に切り捨てられます。

プロンプト作成のテクニックについては、「テキストから動画/画像から動画へのプロンプトガイド」をご参照ください。

function string (必須)

機能名です。ビデオ再塗装は video_repainting に設定します。

ビデオ再塗装機能は、入力動画からエンティティのポーズと動作、混合ストリーム、モーション輪郭、線画構造を抽出し、テキストプロンプトと組み合わせて、同じ動的特性を持つ新しい動画を生成します。この機能は、リファレンス画像を使用して元の動画のエンティティを置き換えることもサポートしており、たとえばキャラクターの外見を変更しながら元の動作を保持できます。

video_url string (必須)

入力動画の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.mp4。

動画要件:

  • フォーマット:MP4。

  • フレームレート:16 FPS 以上。

  • サイズ:最大 50 MB。

  • 持続時間:最大 5 秒。それ以上の長さの動画は最初の 5 秒に切り捨てられます。

  • URL に中国語の文字を含めてはいけません。

出力動画の解像度:

  • 入力動画の解像度が 720p 以下の場合、出力解像度は入力と同じになります。

  • 入力動画の解像度が 720p より高い場合、元の縦横比を維持したまま 720p 解像度内にダウンスケールされます。

出力動画の持続時間:

  • 出力動画の持続時間は入力動画と一致し、最大 5 秒です。

  • 例:入力動画が 3 秒の場合、出力も 3 秒です。入力が 6 秒の場合、出力は入力の最初の 5 秒になります。

ref_images_url array[string] (任意)

リファレンス画像 URL の配列です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.png。

1 枚のリファレンス画像のみがサポートされます。この画像は、入力動画のエンティティコンテンツを置き換えるためのエンティティ画像であることを推奨します。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは [360、2000] ピクセルの範囲内である必要があります。

  • サイズ:最大 10 MB。

  • URL に中国語の文字を含めてはいけません。

推奨事項:

  • エンティティのリファレンス画像を使用する場合、画像には 1 つのエンティティのみを含めることを推奨します。エンティティをより明確にハイライトするために、背景は単色(例:白)にしてください。

parameters object (必須)

ウォーターマーク設定などの動画処理用パラメーターです。

プロパティ

control_condition string (必須)

動画特徴抽出の方法です。

  • posebodyface:入力動画からエンティティの表情と身体の動きを抽出します。エンティティの表情の詳細を保持する必要があるシナリオに適しています。

  • posebody:入力動画からエンティティの身体の動きを抽出しますが、表情は除外します。エンティティの身体の動きのみを制御する必要があるシナリオに適しています。

  • depth:入力動画の混合ストリームとモーション輪郭を抽出します。

  • scribble:入力動画から線画構造を抽出します。

strength float (任意)

control_condition で指定された動画特徴抽出方法が生成動画に与えるコントロール強度を調整します。

値は [0.0, 1.0] の範囲内である必要があります。デフォルト値は 1.0 です。

値が大きいほど、生成された動画は元の動画の動作や混合ストリームにより忠実になります。値が小さいほど、創造的な自由度が高まります。

prompt_extend bool (任意)

プロンプトリライトを有効にするかどうかを指定します。有効にすると、大規模言語モデル (LLM) が入力プロンプトを書き換えます。これにより短いプロンプトの結果が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト):プロンプトリライトを有効にします。

  • false:プロンプトリライトを無効にします。(推奨)

テキストの記述が動画コンテンツと矛盾する場合、モデルが入力を誤解する可能性があります。インテリジェント拡張を手動で無効にし、prompt に明確で具体的なシーンの説明を提供することを推奨します。これにより、一貫性と精度が向上します。

seed integer (任意)

乱数シードは、モデルによって生成されるコンテンツのランダム性を制御します。seed パラメーターの値範囲は [0, 2147483647] です。

シードを指定しない場合、自動的に生成されます。再現可能な結果を得るには、複数のリクエストで同じシード値を使用してください。

watermark bool (任意)

画像の右下隅に「AI 生成」ウォーターマークを追加するかどうかを指定します。

  • false (デフォルト):ウォーターマークを追加しません。

  • true:ウォーターマークを追加します。

ローカル編集

model string (必須)

モデル名です。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力です。

プロパティ

prompt string (必須)

生成された動画に含める要素や視覚的特徴を記述します。

中国語および英語をサポートしています。最大長は 800 文字で、中国語の文字や英字はそれぞれ 1 文字としてカウントされます。この制限を超えるテキストは自動的に切り捨てられます。

プロンプト作成のテクニックについては、「テキストから動画/画像から動画へのプロンプトガイド」をご参照ください。

function string (必須)

機能名:ローカル編集は video_edit に設定します。

ローカル編集機能を使用すると、入力動画の指定されたエリアに要素を追加、変更、または削除できます。また、編集エリアのエンティティまたはバックグラウンドを置き換えて、詳細な動画編集を行うこともできます。

video_url string (必須)

入力動画の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.mp4。

動画要件:

  • フォーマット:MP4。

  • フレームレート:16 FPS 以上。

  • サイズ:最大 50 MB。

  • 持続時間:最大 5 秒。それ以上の長さの動画は最初の 5 秒に切り捨てられます。

  • URL に中国語の文字を含めてはいけません。

出力動画の解像度:

  • 入力動画の解像度が 720p 以下の場合、出力解像度は入力と同じになります。

  • 入力動画の解像度が 720p より高い場合、元の縦横比を維持したまま 720p 解像度内にダウンスケールされます。

出力動画の持続時間:

  • 出力動画の持続時間は入力動画と一致し、最大 5 秒です。

  • 例:入力動画が 3 秒の場合、出力も 3 秒です。入力が 6 秒の場合、出力は入力の最初の 5 秒になります。

ref_images_url array[string] (任意)

リファレンス画像 URL の配列です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.png。

現在、1 枚のリファレンス画像のみがサポートされています。この画像は、入力動画の対応するコンテンツを置き換えるためのエンティティまたはバックグラウンドとして使用できます。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは [360、2000] ピクセルの範囲内である必要があります。

  • サイズ:最大 10 MB。

  • URL に中国語の文字を含めてはいけません。

推奨事項:

  • エンティティのリファレンス画像を使用する場合、画像には 1 つのエンティティのみを含めることを推奨します。エンティティをより明確にハイライトするために、背景は単色(例:白)にしてください。

  • リファレンス画像のバックグラウンドを使用する場合、バックグラウンド画像にはエンティティオブジェクトを含めてはいけません。

mask_image_url string (任意)

マスク画像の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.png。

このパラメーターは、動画の編集エリアを指定します。mask_video_url パラメーターのいずれか一方を指定する必要があります。このパラメーターを優先することを推奨します。

マスク画像では、白色領域(画素値 [255, 255, 255])が編集対象領域を定義し、黒色領域(画素値 [0, 0, 0])が保持対象領域を定義します。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 画像解像度:video_url の入力動画の解像度と同じである必要があります。

  • サイズ:最大 10 MB。

  • URL に中国語の文字を含めてはいけません。

mask_frame_id integer (任意)

mask_image_url が空でない場合に有効になるパラメーターで、マスク対象が表示される動画内のフレーム ID を指定します。

デフォルト値は 1 で、動画の最初のフレームを示します。

値範囲は [1, max_frame_id] で、max_frame_id = 入力動画フレームレート * 入力動画持続時間 + 1 です。

例として、入力動画 (video_url) のフレームレートが 16 FPS(1 秒あたりのフレーム数)、持続時間が 5 秒の場合、フレーム総数は 16 × 5 + 1 = 81 です。したがって、max_frame_id = 81 となります。

mask_video_url string (任意)

マスク動画の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.mp4。

このパラメーターは、動画の編集エリアを指定するために使用します。mask_image_url パラメーターのいずれか一方を指定する必要があります。

マスク動画のフォーマット、フレームレート、解像度、長さは、入力動画 (video_url) と同一である必要があります。

マスク動画では、白色領域(画素値 [255, 255, 255])が編集対象領域を定義し、黒色領域(画素値 [0, 0, 0])が保持対象領域を定義します。

parameters object (任意)

ウォーターマーク設定などの動画処理用パラメーターです。

プロパティ

control_condition string (任意)

動画特徴抽出の方法です。デフォルト値は "" で、特徴が抽出されないことを意味します。

  • posebodyface:入力動画からエンティティの表情と身体の動きを抽出します。エンティティの顔がフレームの大部分を占め、その特徴が明確に見えるシナリオに適しています。

  • depth:入力動画から混合ストリームとモーション輪郭を抽出します。

mask_type string (任意)

mask_image_url が空でない場合に有効になり、編集エリアの動作を指定します。

  • tracking (デフォルト):編集エリアがターゲットオブジェクトの動きの軌跡に動的に追従します。被写体が動いているシナリオに適しています。

  • fixed:編集エリアは固定され、画面コンテンツの変化に影響を受けません。

expand_ratio float (任意)

mask_typetracking の場合に有効になり、マスクエリアを外側に拡張する比率を指定します。

値は [0.0, 1.0] の範囲内である必要があります。デフォルト値は 0.05 で、推奨値です。

値が小さいほどマスクエリアはターゲットオブジェクトにより密着し、値が大きいほどマスクエリアはより広く拡張されます。

expand_mode string (任意)

mask_typetracking の場合に有効になり、マスクエリアの形状を指定します。

アルゴリズムは、選択された expand_mode に基づいて、入力マスク画像から対応する形状のマスク動画を生成します。サポートされている値は次のとおりです。

  • hull (デフォルト):ポリゴンモード。このモードでは、マスクされたオブジェクトをポリゴンで囲います。

  • bbox:バウンディングボックスモード。このモードでは、マスクされたオブジェクトを長方形で囲います。

  • original:オリジナルモード。元のマスクターゲットの形状を維持しようとします。

size string (任意)

生成される動画の解像度(幅*高さ)です。モデルは 720p 動画の生成をサポートしています。有効な値:

  • 1280*720 (デフォルト):動画の縦横比は 16:9 で、1280 が幅、720 が高さです。

  • 720*1280:動画の縦横比は 9:16 です。

  • 960*960:動画の縦横比は 1:1 です。

  • 832*1088:動画の縦横比は 3:4 です。

  • 1088*832:動画の縦横比は 4:3 です。

duration integer (任意)

生成される動画の持続時間(秒単位)です。この値は 5 秒に固定されています。

prompt_extend bool (任意)

プロンプトリライトを有効にするかどうかを指定します。有効にすると、大規模言語モデル (LLM) が入力プロンプトを書き換えます。これにより短いプロンプトの結果が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト):プロンプトリライトを有効にします。

  • false:プロンプトリライトを無効にします。(推奨)

テキストの記述が動画コンテンツと矛盾する場合、モデルが入力を誤解する可能性があります。インテリジェント拡張を手動で無効にし、prompt に明確で具体的なシーンの説明を提供することを推奨します。これにより、一貫性と精度が向上します。

seed integer (任意)

乱数シードは、モデルによって生成されるコンテンツのランダム性を制御します。seed パラメーターの値範囲は [0, 2147483647] です。

シードを指定しない場合、自動的に生成されます。再現可能な結果を得るには、複数のリクエストで同じシード値を使用してください。

watermark bool (任意)

画像の右下隅に「AI 生成」ウォーターマークを追加するかどうかを指定します。

  • false (デフォルト):ウォーターマークを追加しません。

  • true:ウォーターマークを追加します。

ビデオ拡張

model string (必須)

モデル名です。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力です。

プロパティ

prompt string (必須)

生成された動画に含める要素や視覚的特徴を記述します。

中国語および英語をサポートしています。最大長は 800 文字で、中国語の文字や英字はそれぞれ 1 文字としてカウントされます。この制限を超えるテキストは自動的に切り捨てられます。

プロンプト作成のテクニックについては、「テキストから動画/画像から動画へのプロンプトガイド」をご参照ください。

function string (必須)

関数名です。ビデオ拡張は video_extension に設定します。

ビデオ拡張機能は、画像または動画から連続的なコンテンツを生成します。また、リファレンス動画から動作や混合ストリームなどの動的特徴を抽出して、同様の動きを持つ動画の生成をガイドすることもできます。

生成される動画の合計持続時間は 5 秒です。これは最終的な出力持続時間であり、元のコンテンツに 5 秒の拡張が追加されるわけではありません。

first_frame_url string (任意)

最初のフレーム画像の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.png。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは [360、2000] ピクセルの範囲内である必要があります。

  • サイズ:最大 10 MB。

  • URL に中国語の文字を含めてはいけません。

last_frame_url string(任意)

最後のフレーム画像の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.png。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは [360、2000] ピクセルの範囲内である必要があります。

  • サイズ:最大 10 MB。

  • URL に中国語の文字を含めてはいけません。

first_clip_url string (任意)

最初の動画クリップの URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.mp4。

動画要件:

  • フォーマット:MP4。

  • 動画フレームレート:16 FPS 以上。first_clip_urllast_clip_url を同時に使用する場合、2 つのクリップのフレームレートが同じであることを推奨します。

  • サイズ:最大 50 MB。

  • 動画長:動画は 3 秒を超えてはいけません。それ以上の長さの場合は、最初の 3 秒が使用されます。first_clip_urllast_clip_url の両方を指定する場合、2 つの動画クリップの合計持続時間は 3 秒を超えてはいけません。

  • URL に中国語の文字を含めてはいけません。

出力動画の解像度:

  • 入力動画の解像度が 720p 以下の場合、出力解像度は入力と同じになります。

  • 入力動画の解像度が 720p より高い場合、元の縦横比を維持したまま 720p 解像度内にダウンスケールされます。

last_clip_url string(任意)

最後の動画クリップの URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://help-static-aliyun-doc.aliyuncs.com/xxx.mp4。

動画要件:

  • フォーマット:MP4。

  • 動画フレームレート:16 FPS 以上。first_clip_urllast_clip_url を同時に使用する場合、2 つのクリップのフレームレートが同じであることを推奨します。

  • サイズ:最大 50 MB。

  • 動画持続時間:持続時間は 3 秒を超えてはいけません。動画が長い場合は、最初の 3 秒のみが使用されます。first_clip_urllast_clip_url の両方を指定する場合、合計持続時間は 3 秒を超えてはいけません。

  • URL に中国語の文字を含めてはいけません。

出力動画の解像度:

  • 入力動画の解像度が 720p 以下の場合、出力解像度は入力と同じになります。

  • 入力動画の解像度が 720p より高い場合、元の縦横比を維持したまま 720p 解像度内にダウンスケールされます。

video_url string (任意)

入力動画の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://help-static-aliyun-doc.aliyuncs.com/xxx.mp4。

この動画は主に、first_frame_urllast_frame_urlfirst_clip_url、および last_clip_url パラメーターと連携してモーション特徴を抽出し、同様のモーションパフォーマンスを持つ拡張動画の生成をガイドするために使用されます。

動画要件:

  • フォーマット:MP4。

  • フレームレート:16 FPS 以上で、前後のクリップと一致している必要があります。

  • 解像度:前後のフレームおよびクリップと一致している必要があります。

  • サイズ:最大 50 MB。

  • 持続時間:最大 5 秒。それ以上の長さの動画は最初の 5 秒に切り捨てられます。

  • URL に中国語の文字を含めてはいけません。

parameters object (任意)

出力動画の解像度設定などの動画処理用パラメーターです。

プロパティ

control_condition string (任意)

動画特徴抽出の方法です。video_url が指定されている場合、このパラメーターは必須です。デフォルト値は "" で、特徴が抽出されないことを意味します。

  • posebodyface:入力動画内のエンティティの表情と身体の動きを抽出します。

  • depth:入力動画の混合ストリームとモーション輪郭を抽出します。

duration integer (任意)

生成される動画の持続時間(秒単位)です。この値は 5 秒に固定されています。

prompt_extend bool (任意)

プロンプトリライトを有効にするかどうかを指定します。有効にすると、大規模言語モデル (LLM) が入力プロンプトを書き換えます。これにより短いプロンプトの結果が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト):プロンプトリライトを有効にします。

  • false:プロンプトリライトを無効にします。(推奨)

テキストの記述が動画コンテンツと矛盾する場合、モデルが入力を誤解する可能性があります。インテリジェント拡張を手動で無効にし、prompt に明確で具体的なシーンの説明を提供することを推奨します。これにより、一貫性と精度が向上します。

seed integer (任意)

乱数シードは、モデルによって生成されるコンテンツのランダム性を制御します。seed パラメーターの値範囲は [0, 2147483647] です。

シードを指定しない場合、自動的に生成されます。再現可能な結果を得るには、複数のリクエストで同じシード値を使用してください。

watermark bool (任意)

画像の右下隅に「AI 生成」ウォーターマークを追加するかどうかを指定します。

  • false (デフォルト):ウォーターマークを追加しません。

  • true:ウォーターマークを追加します。

ビデオアウトペインティング

model string (必須)

モデル名です。例:wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力です。

プロパティ

prompt string (必須)

生成された動画に含める要素や視覚的特徴を記述します。

中国語および英語をサポートしています。最大長は 800 文字で、中国語の文字や英字はそれぞれ 1 文字としてカウントされます。この制限を超えるテキストは自動的に切り捨てられます。

プロンプト作成のテクニックについては、「テキストから動画/画像から動画へのプロンプトガイド」をご参照ください。

function string (必須)

機能名です。ビデオアウトペインティングの値は video_outpainting です。

ビデオアウトペインティング機能は、動画フレームを上下左右方向に比例して拡張します。

video_url string (必須)

入力動画の URL です。

  1. 公開 URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例:https://xxx/xxx.mp4。

動画要件:

  • フォーマット:MP4。

  • フレームレート:16 FPS 以上。

  • サイズ:最大 50 MB。

  • 持続時間:最大 5 秒。それ以上の長さの動画は最初の 5 秒に切り捨てられます。

  • URL に中国語の文字を含めてはいけません。

出力動画の解像度:

  • 入力動画の解像度が 720p 以下の場合、出力解像度は入力と同じになります。

  • 入力動画の解像度が 720p より高い場合、元の縦横比を維持したまま 720p 解像度内にダウンスケールされます。

出力動画の持続時間:

  • 出力動画の持続時間は入力動画と一致し、最大 5 秒です。

  • 例:入力動画が 3 秒の場合、出力も 3 秒です。入力が 6 秒の場合、出力は入力の最初の 5 秒になります。

parameters object (任意)

拡張比率設定などの動画処理用パラメーターです。

プロパティ

top_scale float (任意)

動画フレームを中心にして、指定された比率で上方向に拡張します。

値は [1.0, 2.0] の範囲内である必要があります。デフォルト値は 1.0 で、拡張なしを示します。

bottom_scale float (任意)

動画フレームを中心にして、指定された比率で下方向に拡張します。

値は [1.0, 2.0] の範囲内である必要があります。デフォルト値は 1.0 で、拡張なしを示します。

left_scale float (任意)

動画フレームを中心にして、指定された比率で左方向に拡張します。

値は [1.0, 2.0] の範囲内である必要があります。デフォルト値は 1.0 で、拡張なしを示します。

right_scale float (任意)

動画フレームを中心にして、指定された比率で右方向に拡張します。

値は [1.0, 2.0] の範囲内である必要があります。デフォルト値は 1.0 で、拡張なしを示します。

duration integer (任意)

生成される動画の持続時間(秒単位)です。この値は 5 秒に固定されています。

prompt_extend bool (任意)

プロンプトリライトを有効にするかどうかを指定します。有効にすると、大規模言語モデル (LLM) が入力プロンプトを書き換えます。これにより短いプロンプトの結果が大幅に向上しますが、処理時間が増加します。

  • true (デフォルト):プロンプトリライトを有効にします。

  • false:プロンプトリライトを無効にします。(推奨)

テキストの記述が動画コンテンツと矛盾する場合、モデルが入力を誤解する可能性があります。インテリジェント拡張を手動で無効にし、prompt に明確で具体的なシーンの説明を提供することを推奨します。これにより、一貫性と精度が向上します。

seed integer (任意)

乱数シードは、モデルによって生成されるコンテンツのランダム性を制御します。seed パラメーターの値範囲は [0, 2147483647] です。

シードを指定しない場合、自動的に生成されます。再現可能な結果を得るには、複数のリクエストで同じシード値を使用してください。

watermark bool (任意)

画像の右下隅に「AI 生成」ウォーターマークを追加するかどうかを指定します。

  • false (デフォルト):ウォーターマークを追加しません。

  • true:ウォーターマークを追加します。

レスポンスパラメーター

成功レスポンス

task_id を保存して、タスクのステータスと結果を照会します。

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

エラーレスポンス

タスクの作成に失敗しました。「エラーコード」をご参照ください。

{
    "code": "InvalidApiKey",
    "message": "No API-key provided.",
    "request_id": "7438d53d-6eb8-4596-8835-xxxxxx"
}

output object

非同期タスクの出力です。

プロパティ

task_id string

タスク ID です。24 時間有効です。

task_status string

タスクのステータスです。

列挙値

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN:タスクが存在しないか、ステータスが不明です。

request_id string

トレースおよびトラブルシューティング用の一意のリクエスト識別子です。

code string

エラーコードです。失敗したリクエストでのみ返されます。「エラーコード」をご参照ください。

message string

詳細なエラーメッセージです。失敗したリクエストでのみ返されます。「エラーコード」をご参照ください。

ステップ 2:タスク ID で結果を照会する

シンガポール

GET https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/tasks/{task_id}

WorkspaceId は実際のワークスペース IDに置き換えてください。

中国 (北京)

GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

リクエストパラメーター

タスク結果の照会

{task_id} は、前の API 呼び出しで返された task_id の値に置き換えてください。task_id は 24 時間有効です。

curl -X GET https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"
リクエストヘッダー

Authorization string (必須)

Model Studio API キーでリクエストを認証します。例:Bearer sk-xxxx。

URL パスパラメーター

task_id string (必須)

タスクの ID です。

レスポンスパラメーター

タスク成功

タスクデータ(タスクステータスおよび動画 URL を含む)は 24 時間利用可能で、その後自動的に削除されます。生成された動画は速やかに保存してください。

{
    "request_id": "851985d0-fbba-9d8d-a17a-xxxxxx",
    "output": {
        "task_id": "208e2fd1-fcb4-4adf-9fcc-xxxxxx",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-05-15 16:14:44.723",
        "scheduled_time": "2025-05-15 16:14:44.750",
        "end_time": "2025-05-15 16:20:09.389",
        "video_url": "https://dashscope-result-wlcb.oss-cn-wulanchabu.aliyuncs.com/xxx.mp4?xxxxxx",
        "orig_prompt": "In the video, a girl gracefully walks out from a misty, ancient forest. Her steps are light, and the camera captures her every nimble moment. When the girl stops and looks around at the lush woods, a smile of surprise and joy blossoms on her face. This scene, frozen in a moment of interplay between light and shadow, records her wonderful encounter with nature.",
        "actual_prompt": "A girl in a light-colored long dress slowly walks out from a misty, ancient forest, her steps as light as a dance. She has slightly curly long hair, a delicate face, and bright eyes. The camera follows her movements, capturing every nimble moment. When she stops, turns, and looks around at the lush woods, a smile of surprise and joy blossoms on her face. Sunlight filters through the leaves, casting mottled shadows and freezing this beautiful moment of harmony between human and nature. The style is a fresh and natural portrait, combining medium and full shots with a level perspective and slight camera movement."
    },
    "usage": {
        "video_duration": 5,
        "video_ratio": "standard",
        "video_count": 1
    }
}

タスク失敗

タスクが失敗した場合、task_status は FAILED となり、エラーコードとメッセージが返されます。「エラーコード」をご参照ください。

{
    "request_id": "e5d70b02-ebd3-98ce-9fe8-759d7d7b107d",
    "output": {
        "task_id": "86ecf553-d340-4e21-af6e-a0c6a421c010",
        "task_status": "FAILED",
        "code": "InvalidParameter",
        "message": "The size is not match xxxxxx"
    }
}

output object

タスク出力に関する情報です。

プロパティ

task_id string

タスク ID です。24 時間有効です。

task_status string

タスクのステータスです。

列挙値

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN:タスクが存在しないか、ステータスが不明です。

submit_time string

タスクが送信された時刻です。時刻は UTC + 08:00 で、形式は YYYY-MM-DD HH:mm:ss.SSS です。

scheduled_time string

タスクが実行された時刻です。時刻は UTC + 08:00 で、形式は YYYY-MM-DD HH:mm:ss.SSS です。

end_time string

タスクが完了した時刻です。時刻は UTC + 08:00 で、形式は YYYY-MM-DD HH:mm:ss.SSS です。

video_url string

生成された MP4 (H.264) 動画の URL です。このリンクは 24 時間有効です。

orig_prompt string

元の入力プロンプトです。

actual_prompt string

プロンプトリライト後に生成に使用されたプロンプトです。このフィールドは、プロンプトリライトが有効になっている場合にのみ返されます。

code string

エラーコードです。失敗したリクエストでのみ返されます。「エラーコード」をご参照ください。

message string

詳細なエラーメッセージです。失敗したリクエストでのみ返されます。「エラーコード」をご参照ください。

usage object

タスク出力の統計情報です。成功したタスクでのみ提供されます。

プロパティ

video_duration integer

生成された動画の持続時間(秒単位)です。

video_ratio string

生成された動画の縦横比です。値は常に standard です。

video_count integer

生成された動画の数です。

request_id string

トレースおよびトラブルシューティング用の一意のリクエスト識別子です。

制限事項

  • データ保持期間:タスク ID task_id および動画 URL video_url は 24 時間のみ保持されます。有効期限が切れると、これらを照会またはダウンロードできなくなります。

  • 音声サポート:この機能は現在、無音の動画のみを生成します。音声を生成するには、「音声合成」をご使用ください。

エラーコード

モデルの呼び出しがエーメッセージとともに失敗した場合は、「エラーコード」を参照してトラブルシューティングを行ってください。

よくある質問

Q:動画ストレージドメインをホワイトリストに登録するには?

A:モデルによって生成された動画は OSS に保存されます。API は一時的な公開 URL を返します。このダウンロード URL のファイアウォールホワイトリストを設定する場合、次の点にご注意ください。基盤となるストレージは動的に変更される可能性があります。このトピックでは、古い情報によるアクセス障害を防ぐため、固定の OSS ドメイン名ホワイトリストを提供していません。セキュリティ制御要件がある場合は、最新の OSS ドメイン名リストを取得するためにアカウントマネージャーにお問い合わせください。