すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Wan - 汎用ビデオ編集 API リファレンス

最終更新日:Feb 27, 2026

Wan 汎用ビデオ編集モデルは、テキスト、画像、ビデオなどの複数の入力モダリティをサポートし、さまざまなビデオ生成および編集タスクを実行します。

関連ドキュメントユーザーガイド

適用範囲

API 呼び出しを正常に行うには、モデル、エンドポイント URL、API キーが同じリージョンに属している必要があります。リージョンをまたいだ呼び出しは失敗します。

  • モデルの選択:モデルが対象のリージョンで利用可能であることを確認します。

  • URL の選択:対応するリージョンのエンドポイント URL を選択します。URL は HTTP をサポートします。

  • API キーの設定:リージョンを選択し、API キーを取得し、環境変数に設定します。

説明

このトピックのサンプルコードはシンガポールリージョンに適用されます。

HTTP 呼び出し

ビデオ編集タスクには約 5~10 分の時間がかかるため、API は非同期呼び出しを使用します。完全なワークフローは、タスクの作成 → 結果のポーリングという 2 つのコアステップで構成されます。

ステップ 1:タスクを作成してタスク ID を取得

シンガポール

POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

北京

POST https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

リクエストパラメーター

複数画像参照

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーと API ホストの取得
次の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換えてください。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "image_reference",
        "prompt": "In the video, a girl gracefully walks out from a misty, ancient forest. Her steps are light, and the camera captures her every nimble moment. When she stops and looks around at the lush woods, a smile of surprise and joy blossoms on her face. This scene, frozen in a moment of interplay between light and shadow, records her wonderful encounter with nature.",
        "ref_images_url": [
            "http://wanx.alicdn.com/material/20250318/image_reference_2_5_16.png",
            "http://wanx.alicdn.com/material/20250318/image_reference_1_5_16.png"
        ]
    },
    "parameters": {
        "prompt_extend": true,
        "obj_or_bg": ["obj","bg"],
        "size": "1280*720"
    }
}'

ビデオ再描画

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーと API ホストの取得
次の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換えてください。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_repainting",
        "prompt": "The video shows a black steampunk-style car driven by a gentleman. The car is decorated with gears and copper pipes. The background features a steam-powered candy factory and retro elements, creating a vintage and playful scene.",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_repainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "control_condition": "depth"
    }
}'

ローカル編集

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーと API ホストの取得
次の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換えてください。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_edit",
        "prompt": "The video shows a Parisian-style French cafe where a lion in a suit is elegantly sipping coffee. It holds a coffee cup in one hand, taking a gentle sip with a relaxed expression. The cafe is tastefully decorated, with soft hues and warm lighting illuminating the area where the lion is.",
        "mask_image_url": "http://wanx.alicdn.com/material/20250318/video_edit_1_mask.png",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_edit_2.mp4",
        "mask_frame_id": 1
    },
    "parameters": {
        "prompt_extend": false,
        "mask_type": "tracking",
        "expand_ratio": 0.05
    }
}'

ビデオ拡張

シンガポールリージョンと中国 (北京) リージョンの API キーは異なります。詳細については、「API キーと API ホストの取得
次の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換えてください。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_extension",
        "prompt": "A dog wearing sunglasses is skateboarding on the street, 3D cartoon.",
        "first_clip_url": "http://wanx.alicdn.com/material/20250318/video_extension_1.mp4"
    },
    "parameters": {
        "prompt_extend": false
    }
}'

ビデオアウトペインティング

API キーは、シンガポールや北京など、リージョンごとに異なります。API キーを取得
次の URL はシンガポールリージョン用です。中国 (北京) リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis に置き換えてください。
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.1-vace-plus",
    "input": {
        "function": "video_outpainting",
        "prompt": "An elegant lady is passionately playing the violin, with a full symphony orchestra behind her.",
        "video_url": "http://wanx.alicdn.com/material/20250318/video_outpainting_1.mp4"
    },
    "parameters": {
        "prompt_extend": false,
        "top_scale": 1.5,
        "bottom_scale": 1.5,
        "left_scale": 1.5,
        "right_scale": 1.5
    }
}'
リクエストヘッダー

Content-Type string (必須)

リクエストのコンテンツタイプです。application/json である必要があります。

Authorization string (必須)

Model Studio API キーを使用した認証情報です。

例: Bearer sk-xxxx

X-DashScope-Async string (必須)

非同期処理を有効にします。HTTP リクエストは非同期処理のみをサポートするため、enable である必要があります。

重要

含まれていない場合、「current user api does not support synchronous calls」というエラーが返されます。

リクエストボディ

複数画像参照

model string (必須)

モデル名。例: wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報です。

プロパティ

prompt string (必須)

生成されるビデオに期待される要素や視覚的特徴を記述するプロンプトです。

中国語と英語をサポートします。各文字、アルファベット、句読点は 1 文字としてカウントされます。制限を超えたテキストは自動的に切り捨てられます。

プロンプトのヒントについては、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能名。複数画像参照の場合は、これを image_reference に設定します。

複数画像参照は、最大 3 枚の参照画像をサポートします。画像コンテンツには、人物、動物、衣服、風景などのエンティティやバックグラウンドを含めることができます。prompt パラメーターを使用して、目的のビデオコンテンツを記述します。モデルは複数の画像をマージして、一貫性のあるビデオを生成します。

ref_images_url array[string] (必須)

入力参照画像の URL の配列です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

1~3 枚の参照画像を提供できます。3 枚を超えて提供した場合、最初の 3 枚のみが使用されます。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは 360~2,000 ピクセルの範囲内である必要があります。

  • サイズ:最大 10 MB。

  • URL には中国語の文字を含めることはできません。

使用上のヒント:

  • 参照画像からエンティティを使用する場合、画像ごとに 1 つのエンティティのみを含めてください。エンティティをより際立たせるために、白や単色などの単色背景を使用してください。

  • 参照画像からバックグラウンドを使用する場合、バックグラウンド画像は最大 1 枚とし、エンティティオブジェクトが含まれていないことを確認してください。

parameters object (任意)

ウォーターマーク設定などのビデオ処理パラメーターです。

プロパティ

obj_or_bg array[string] (任意)

各参照画像の目的を識別し、ref_images_url パラメーターと 1 対 1 で対応します。各要素は、対応する画像が「エンティティ」か「バックグラウンド」かを示します。

  • obj:エンティティ参照として使用される画像を指定します。

  • bg:バックグラウンド参照。バックグラウンド参照は 1 つのみ許可されます。

手順:

  • このパラメーターを提供することを推奨します。その長さは ref_images_url と一致する必要があります。一致しない場合、エラーが発生します。

  • ref_images_url が単一要素の配列である場合にのみ、このパラメーターを省略できます。その場合、デフォルト値は ["obj"] です。

例: ["obj", "obj", "bg"]。

size string (任意)

出力ビデオの解像度を幅*高さの形式で指定します。サポートされている値:

  • 1280*720 (デフォルト):16:9 のアスペクト比。1280 は幅、720 は高さです。

  • 720*1280:9:16。

  • 960×960:アスペクト比は 1:1 です。

  • 832*1088 の解像度は、ビデオのアスペクト比が 3:4 になります。

  • 1088*832 の解像度は、ビデオのアスペクト比が 4:3 です。

duration integer (任意)

ビデオの長さ (秒)。5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうか。有効にすると、大規模言語モデル (LLM) が入力プロンプトを書き直します。これにより、短いプロンプトの品質は向上しますが、処理時間が増加します。

  • true (デフォルト):再書き込みを有効にします。

  • false:再書き込みを無効にします。

seed integer (任意)

生成されるコンテンツのランダム性を制御するランダムシードです。有効範囲: [0, 2147483647]

省略した場合、アルゴリズムは自動的にランダムシードを生成します。比較的安定した結果を生成するには、同じシード値を使用してください。

watermark bool (任意)

ウォーターマーク (右下に「AI Generated」) を追加するかどうか。

  • false (デフォルト):ウォーターマークなし。

  • true:ウォーターマークを追加します。

ビデオ再描画

model string (必須)

モデル名。例: wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報です。

プロパティ

prompt string (必須)

生成されるビデオに期待される要素や視覚的特徴を記述するプロンプトです。

中国語と英語をサポートします。各文字、アルファベット、句読点は 1 文字としてカウントされます。制限を超えたテキストは自動的に切り捨てられます。

プロンプトのヒントについては、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能名。ビデオ再描画の場合は、これを video_repainting に設定します。

ビデオ再描画は、入力ビデオからエンティティのポーズとアクション、構図とモーションの輪郭、スケッチ構造を抽出します。その後、これらをテキストプロンプトと組み合わせて、同じ動的特徴を持つ新しいビデオを生成します。また、元のビデオのエンティティを参照画像に置き換えることもできます。たとえば、キャラクターのアクションを維持したまま外見を変更するなどです。

video_url string (必須)

入力ビデオの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオの制限:

  • フォーマット:MP4。

  • フレームレート:≥ 16 FPS。

  • サイズ:≤ 50 MB。

  • 長さ:≤ 5 秒。長い場合は、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

出力ビデオの解像度:

  • 入力解像度が 720P 以下の場合、出力は元の解像度を維持します。

  • 入力解像度が 720P を超える場合、出力はアスペクト比を維持したまま 720P 以下にスケールダウンされます。

出力ビデオの長さ:

  • 入力の長さと一致し、最大 5 秒です。

  • 例:3 秒の入力は 3 秒の出力を生成します。6 秒の入力は最初の 5 秒を生成します。

ref_images_url array[string] (任意)

入力参照画像の URL の配列です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

参照画像は 1 枚のみサポートされています。入力ビデオのエンティティを置き換えるためにエンティティ画像を使用することを推奨します。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは 360~2,000 ピクセルの範囲内である必要があります。

  • サイズ:≤ 10 MB。

  • URL には中国語の文字を含めることはできません。

使用上のヒント:

  • 参照画像からエンティティを使用する場合、画像ごとに 1 つのエンティティのみを含めてください。エンティティをより際立たせるために、白や単色などの単色背景を使用してください。

parameters object (必須)

ウォーターマーク設定などのビデオ処理パラメーターです。

プロパティ

control_condition string (必須)

ビデオの特徴抽出方法です。

  • posebodyface:顔の表情と体の動きを抽出します。細かい顔のディテールが必要なシナリオに最適です。

  • posebody:体の動きのみを抽出します (顔の表情はなし)。体の動きだけを制御する場合に最適です。

  • depth:構図とモーションの輪郭を抽出します。

  • scribble:スケッチ構造を抽出します。

strength float (任意)

control_condition メソッドが生成されるビデオにどの程度強く影響するかを調整します。

デフォルト:1.0。範囲:[0.0, 1.0]。

値が高いほど、出力は元のビデオの動きと構図に近くなります。値が低いほど、より創造的な自由度が高まります。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうか。有効にすると、LLM が入力プロンプトを書き直します。これにより、短いプロンプトの品質は向上しますが、処理時間が増加します。

  • true (デフォルト):再書き込みを有効にします。

  • false:再書き込みを無効にします。(推奨)

テキスト記述が入力ビデオと矛盾する場合、モデルがプロンプトを誤って解釈する可能性があります。一貫性と精度を向上させるには、プロンプトの再書き込みを無効にし、prompt で明確かつ具体的な記述を提供してください。

seed integer (任意)

生成されるコンテンツのランダム性を制御するランダムシードです。有効範囲: [0, 2147483647]

省略した場合、アルゴリズムは自動的にランダムシードを生成します。比較的安定した結果を生成するには、同じシード値を使用してください。

watermark bool (任意)

ウォーターマーク (右下に「AI Generated」) を追加するかどうか。

  • false (デフォルト):ウォーターマークなし。

  • true:ウォーターマークを追加します。

ローカル編集

model string (必須)

モデル名。例: wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報です。

プロパティ

prompt string (必須)

生成されるビデオに期待される要素や視覚的特徴を記述するプロンプトです。

中国語と英語をサポートします。各文字、アルファベット、句読点は 1 文字としてカウントされます。制限を超えたテキストは自動的に切り捨てられます。

プロンプトのヒントについては、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能名。ローカル編集の場合は、これを video_edit に設定します。

ローカル編集を使用すると、入力ビデオの指定されたエリア内の要素を追加、変更、または削除できます。また、そのエリアのエンティティやバックグラウンドを置き換えて、詳細な制御を行うこともできます。

video_url string (必須)

入力ビデオの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオの制限:

  • フォーマット:MP4。

  • フレームレート:≥ 16 FPS。

  • サイズ:≤ 50 MB。

  • 長さ:≤ 5 秒。長い場合は、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

出力ビデオの解像度:

  • 入力解像度が 720P 以下の場合、出力は元の解像度を維持します。

  • 入力解像度が 720P を超える場合、出力はアスペクト比を維持したまま 720P 以下にスケールダウンされます。

出力ビデオの長さ:

  • 入力の長さと一致し、最大 5 秒です。

  • 例:3 秒の入力は 3 秒の出力を生成します。6 秒の入力は最初の 5 秒を生成します。

ref_images_url array[string] (任意)

入力参照画像の URL の配列です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

参照画像は 1 枚のみサポートされています。入力ビデオ内の対応するコンテンツを置き換えるために、エンティティまたはバックグラウンドとして使用できます。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは 360~2,000 ピクセルの範囲内である必要があります。

  • サイズ:≤ 10 MB。

  • URL には中国語の文字を含めることはできません。

使用上のヒント:

  • 参照画像からエンティティを使用する場合、画像ごとに 1 つのエンティティのみを含めてください。エンティティをより際立たせるために、白や単色などの単色背景を使用してください。

  • 参照画像からバックグラウンドを使用する場合、エンティティオブジェクトが含まれていないことを確認してください。

mask_image_url string (任意)

マスク画像の URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

このパラメーターはビデオ編集エリアを定義します。このパラメーターまたは mask_video_url のいずれかを指定します。このパラメーターを推奨します。

マスク画像の白いエリア (画素値が正確に [255, 255, 255]) は編集するエリアを示します。黒いエリア (画素値が正確に [0, 0, 0]) は保持するエリアを示します。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:入力ビデオ (video_url) の解像度と完全に一致する必要があります。

  • サイズ:≤ 10 MB。

  • URL には中国語の文字を含めることはできません。

mask_frame_id integer (任意)

このパラメーターは、mask_image_url が空でない場合にのみ適用されます。マスクされたオブジェクトが表示されるフレーム番号を識別します。

デフォルト:1 (最初のフレーム)。

有効範囲: [1, max_frame_id]、ここで max_frame_id = 入力ビデオのフレームレート × 入力ビデオの長さ + 1 です。

たとえば、入力ビデオ (video_url) のフレームレートが 16 FPS で長さが 5 秒の場合、合計フレームは 81 (16×5+1) です。したがって、max_frame_id = 81 です。

mask_video_url string (任意)

マスクビデオの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

このパラメーターはビデオ編集エリアを定義します。このパラメーターまたは mask_image_url のいずれかを指定します。

マスクビデオは、フォーマット、フレームレート、解像度、長さが入力ビデオ (video_url) と一致する必要があります。

マスクビデオの白いエリア (画素値が正確に [255, 255, 255]) は編集するエリアを示します。黒いエリア (画素値が正確に [0, 0, 0]) は保持するエリアを示します。

parameters object (任意)

ウォーターマーク設定などのビデオ処理パラメーターです。

プロパティ

control_condition string (任意)

ビデオの特徴抽出方法です。デフォルト:"" (抽出なし)。

  • posebodyface:顔の表情と体の動きを抽出します。エンティティの顔がフレームの大部分を占め、特徴がはっきりと見える場合に最適です。

  • depth:構図とモーションの輪郭を抽出します。

mask_type string (任意)

このパラメーターは、mask_image_url が空でない場合にのみ適用されます。編集エリアの動作を定義します。

  • tracking (デフォルト):編集エリアはターゲットオブジェクトの動きの軌跡を追跡します。動くオブジェクトに最適です。

  • fixed:編集エリアは固定され、ビデオコンテンツによって変化しません。

expand_ratio float (任意)

このパラメーターは、mask_typetracking の場合にのみ適用されます。マスクエリアの外側への拡張率を設定します。

範囲:[0.0, 1.0]。デフォルト:0.05。推奨。

値が小さいほど、マスクはターゲットオブジェクトに密着します。値が大きいほど、マスクはより広く拡張されます。

expand_mode string (任意)

このパラメーターは、mask_typetracking の場合にのみ適用されます。マスクエリアの形状を定義します。

アルゴリズムは、入力マスク画像と expand_mode に基づいて、選択された形状のマスクビデオを生成します。サポートされている値:

  • hull (デフォルト):ポリゴンモード。ポリゴンがマスクされたオブジェクトを囲みます。

  • bbox:バウンディングボックスモード。長方形がマスクされたオブジェクトを囲みます。

  • original:生モード。元のマスク形状を可能な限り保持します。

size string (任意)

出力ビデオの解像度を幅*高さの形式で指定します。サポートされている値:

  • 1280*720 (デフォルト):16:9 のアスペクト比。1280 は幅、720 は高さです。

  • 720*1280:9:16。

  • 960×960:アスペクト比は 1:1 です。

  • 832*1088 の解像度は、ビデオのアスペクト比が 3:4 になります。

  • 1088*832 の解像度は、ビデオのアスペクト比が 4:3 です。

duration integer (任意)

ビデオの長さ (秒)。5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうか。有効にすると、LLM が入力プロンプトを書き直します。これにより、短いプロンプトの品質は向上しますが、処理時間が増加します。

  • true (デフォルト):再書き込みを有効にします。

  • false:再書き込みを無効にします。(推奨)

テキスト記述が入力ビデオと矛盾する場合、モデルがプロンプトを誤って解釈する可能性があります。一貫性と精度を向上させるには、プロンプトの再書き込みを無効にし、prompt で明確かつ具体的な記述を提供してください。

seed integer (任意)

生成されるコンテンツのランダム性を制御するランダムシードです。有効範囲: [0, 2147483647]

省略した場合、アルゴリズムは自動的にランダムシードを生成します。比較的安定した結果を生成するには、同じシード値を使用してください。

watermark bool (任意)

ウォーターマーク (右下に「AI Generated」) を追加するかどうか。

  • false (デフォルト):ウォーターマークなし。

  • true:ウォーターマークを追加します。

ビデオ拡張

model string (必須)

モデル名。例: wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報です。

プロパティ

prompt string (必須)

生成されるビデオに期待される要素や視覚的特徴を記述するプロンプトです。

中国語と英語をサポートします。各文字、アルファベット、句読点は 1 文字としてカウントされます。制限を超えたテキストは自動的に切り捨てられます。

プロンプトのヒントについては、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能名。ビデオ拡張の場合は、これを video_extension に設定します。

ビデオ拡張は、画像またはビデオから連続したコンテンツを生成します。また、参照ビデオからアクションや構図などの動的特徴を抽出し、同様の動きを持つ新しいビデオの生成をガイドします。

拡張されたビデオの合計の長さは 5 秒です。注意:これは最終的な出力ビデオの全長であり、元のビデオに追加される 5 秒ではありません。

first_frame_url string (任意)

開始フレーム画像の URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは 360~2,000 ピクセルの範囲内である必要があります。

  • サイズ:≤ 10 MB。

  • URL には中国語の文字を含めることはできません。

last_frame_url string(任意)

終了フレーム画像の URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

画像要件:

  • フォーマット:JPG、JPEG、PNG、BMP、TIFF、または WEBP。

  • 解像度:幅と高さは 360~2,000 ピクセルの範囲内である必要があります。

  • サイズ:≤ 10 MB。

  • URL には中国語の文字を含めることはできません。

first_clip_url string (任意)

最初のビデオセグメントの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオ要件:

  • フォーマット:MP4。

  • フレームレート:≥ 16 FPS。first_clip_urllast_clip_url の両方を使用する場合、フレームレートを一致させてください。

  • サイズ:≤ 50 MB。

  • ビデオの長さ:3 秒を超えてはなりません。長さがそれ以上の場合、最初の 3 秒のみが使用されます。first_clip_urllast_clip_url の両方を指定した場合、それらの合計の長さは 3 秒を超えてはなりません。

  • URL には中国語の文字を含めることはできません。

出力ビデオの解像度:

  • 入力解像度が 720P 以下の場合、出力は元の解像度を維持します。

  • 入力解像度が 720P を超える場合、出力はアスペクト比を維持したまま 720P 以下にスケールダウンされます。

last_clip_url string(任意)

最後のビデオセグメントの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://help-static-aliyun-doc.aliyuncs.com/xxx.mp3。

ビデオ要件:

  • フォーマット:MP4。

  • フレームレート:≥ 16 FPS。first_clip_urllast_clip_url の両方を使用する場合、フレームレートを一致させてください。

  • サイズ:≤ 50 MB。

  • ビデオの長さ:3 秒を超えてはなりません。長さがそれ以上の場合、最初の 3 秒のみが使用されます。first_clip_urllast_clip_url の両方を指定した場合、それらの合計の長さは 3 秒を超えてはなりません。

  • URL には中国語の文字を含めることはできません。

出力ビデオの解像度:

  • 入力解像度が 720P 以下の場合、出力は元の解像度を維持します。

  • 入力解像度が 720P を超える場合、出力はアスペクト比を維持したまま 720P 以下にスケールダウンされます。

video_url string (任意)

入力ビデオの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://help-static-aliyun-doc.aliyuncs.com/xxx.mp3。

このビデオはモーション特徴を抽出するために使用されます。first_frame_urllast_frame_urlfirst_clip_url、および last_clip_url と連携して、同様のモーションを持つ拡張ビデオの生成をガイドします。

ビデオ要件:

  • フォーマット:MP4。

  • フレームレート:≥ 16 FPS、隣接するクリップと一致していること。

  • 解像度:隣接するフレームおよびクリップと一致します。

  • サイズ:≤ 50 MB。

  • 長さ:≤ 5 秒。長い場合は、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

parameters object (任意)

出力解像度などのビデオ処理パラメーターです。

プロパティ

control_condition string (任意)

ビデオの特徴抽出方法です。video_url が提供されている場合に必須です。デフォルト:"" (抽出なし)。

  • posebodyface:顔の表情と体の動きを抽出します。

  • depth:構図とモーションの輪郭を抽出します。

duration integer (任意)

ビデオの長さ (秒)。5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうか。有効にすると、LLM が入力プロンプトを書き直します。これにより、短いプロンプトの品質は向上しますが、処理時間が増加します。

  • true (デフォルト):再書き込みを有効にします。

  • false:再書き込みを無効にします。(推奨)

テキスト記述が入力ビデオと矛盾する場合、モデルがプロンプトを誤って解釈する可能性があります。一貫性と精度を向上させるには、プロンプトの再書き込みを無効にし、prompt で明確かつ具体的な記述を提供してください。

seed integer (任意)

生成されるコンテンツのランダム性を制御するランダムシードです。有効範囲: [0, 2147483647]

省略した場合、アルゴリズムは自動的にランダムシードを生成します。比較的安定した結果を生成するには、同じシード値を使用してください。

watermark bool (任意)

ウォーターマーク (右下に「AI Generated」) を追加するかどうか。

  • false (デフォルト):ウォーターマークなし。

  • true:ウォーターマークを追加します。

ビデオアウトペインティング

model string (必須)

モデル名。例: wan2.1-vace-plus

input object (必須)

プロンプトなどの基本的な入力情報です。

プロパティ

prompt string (必須)

生成されるビデオに期待される要素や視覚的特徴を記述するプロンプトです。

中国語と英語をサポートします。各文字、アルファベット、句読点は 1 文字としてカウントされます。制限を超えたテキストは自動的に切り捨てられます。

プロンプトのヒントについては、「ビデオ生成プロンプトガイド」をご参照ください。

function string (必須)

機能名。ビデオアウトペインティングの場合は、これを video_outpainting に設定します。

ビデオアウトペインティングは、ビデオを上下左右の方向に比例して拡張します。

video_url string (必須)

入力ビデオの URL です。

  1. パブリック URL:

    • HTTP および HTTPS プロトコルをサポートします。

    • 例: https://xxx/xxx.mp3。

ビデオの制限:

  • フォーマット:MP4。

  • フレームレート:≥ 16 FPS。

  • サイズ:≤ 50 MB。

  • 長さ:≤ 5 秒。長い場合は、最初の 5 秒のみが使用されます。

  • URL には中国語の文字を含めることはできません。

出力ビデオの解像度:

  • 入力解像度が 720P 以下の場合、出力は元の解像度を維持します。

  • 入力解像度が 720P を超える場合、出力はアスペクト比を維持したまま 720P 以下にスケールダウンされます。

出力ビデオの長さ:

  • 入力の長さと一致し、最大 5 秒です。

  • 例:3 秒の入力は 3 秒の出力を生成します。6 秒の入力は最初の 5 秒を生成します。

parameters object (任意)

スケーリング比などのビデオ処理パラメーターです。

プロパティ

top_scale float (任意)

ビデオ フレームを中央に配置し、比例して拡大します。

範囲:[1.0, 2.0]。デフォルト:1.0 (スケーリングなし)。

bottom_scale float (任意)

ビデオフレームを中央に配置し、下方向に比例してスケーリングします。

範囲:[1.0, 2.0]。デフォルト:1.0 (スケーリングなし)。

left_scale float (任意)

ビデオフレームを中央に配置し、左方向に比例してスケーリングします。

範囲:[1.0, 2.0]。デフォルト:1.0 (スケーリングなし)。

right_scale float (任意)

ビデオフレームを中央に配置し、右方向に比例してスケーリングします。

範囲:[1.0, 2.0]。デフォルト:1.0 (スケーリングなし)。

duration integer (任意)

ビデオの長さ (秒)。5 に固定されており、変更できません。モデルは常に 5 秒のビデオを生成します。

prompt_extend bool (任意)

プロンプトの再書き込みを有効にするかどうか。有効にすると、LLM が入力プロンプトを書き直します。これにより、短いプロンプトの品質は向上しますが、処理時間が増加します。

  • true (デフォルト):再書き込みを有効にします。

  • false:再書き込みを無効にします。(推奨)

テキスト記述が入力ビデオと矛盾する場合、モデルがプロンプトを誤って解釈する可能性があります。一貫性と精度を向上させるには、プロンプトの再書き込みを無効にし、prompt で明確かつ具体的な記述を提供してください。

seed integer (任意)

生成されるコンテンツのランダム性を制御するランダムシードです。有効範囲: [0, 2147483647]

省略した場合、アルゴリズムは自動的にランダムシードを生成します。比較的安定した結果を生成するには、同じシード値を使用してください。

watermark bool (任意)

ウォーターマーク (右下に「AI Generated」) を追加するかどうか。

  • false (デフォルト):ウォーターマークなし。

  • true:ウォーターマークを追加します。

レスポンスパラメーター

成功レスポンス

task_id を保存して、タスクのステータスと結果をクエリします。

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

エラーレスポンス

タスクの作成に失敗しました。問題を解決するには、エラーコードをご参照ください。

{
    "code": "InvalidApiKey",
    "message": "No API-key provided.",
    "request_id": "7438d53d-6eb8-4596-8835-xxxxxx"
}

output object

タスクの出力情報です。

プロパティ

task_id string

タスクの ID です。最大 24 時間、タスクのクエリに使用できます。

task_status string

タスクのステータスです。

列挙

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN:タスクが存在しないか、ステータスが不明です

request_id string

リクエストの一意の識別子です。問題の追跡とトラブルシューティングに使用します。

code string

エラーコードです。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

message string

詳細なエラーメッセージです。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

ステップ 2:タスク ID を使用して結果をクエリ

シンガポール

GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}

北京

GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

リクエストパラメーター

タスク結果のクエリ

前の API 呼び出しで返された task_id の値で {task_id} を置き換えます。

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"
リクエストヘッダー

Authorization string (必須)

Model Studio API キーを使用した認証情報です。

例: Bearer sk-xxxx

URL パスパラメーター

task_id string (必須)

クエリするタスクの ID です。

レスポンスパラメーター

タスク成功

ステータスやビデオ URL を含むタスクデータは 24 時間のみ保持され、その後自動的に削除されます。生成されたビデオは速やかに保存してください。

{
    "request_id": "851985d0-fbba-9d8d-a17a-xxxxxx",
    "output": {
        "task_id": "208e2fd1-fcb4-4adf-9fcc-xxxxxx",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-05-15 16:14:44.723",
        "scheduled_time": "2025-05-15 16:14:44.750",
        "end_time": "2025-05-15 16:20:09.389",
        "video_url": "https://dashscope-result-wlcb.oss-cn-wulanchabu.aliyuncs.com/xxx.mp4?xxxxxx",
        "orig_prompt": "In the video, a girl gracefully walks out from a misty, ancient forest. Her steps are light, and the camera captures her every nimble moment. When the girl stops and looks around at the lush woods, a smile of surprise and joy blossoms on her face. This scene, frozen in a moment of interplay between light and shadow, records her wonderful encounter with nature.",
        "actual_prompt": "A girl in a light-colored long dress slowly walks out from a misty, ancient forest, her steps as light as a dance. She has slightly curly long hair, a delicate face, and bright eyes. The camera follows her movements, capturing every nimble moment. When she stops, turns, and looks around at the lush woods, a smile of surprise and joy blossoms on her face. Sunlight filters through the leaves, casting mottled shadows and freezing this beautiful moment of harmony between human and nature. The style is a fresh and natural portrait, combining medium and full shots with a level perspective and slight camera movement."
    },
    "usage": {
        "video_duration": 5,
        "video_ratio": "standard",
        "video_count": 1
    }
}

タスク失敗

タスクが失敗すると、task_status は FAILED に設定され、エラーコードとメッセージが表示されます。問題を解決するには、エラーコードをご参照ください。

{
    "request_id": "e5d70b02-ebd3-98ce-9fe8-759d7d7b107d",
    "output": {
        "task_id": "86ecf553-d340-4e21-af6e-a0c6a421c010",
        "task_status": "FAILED",
        "code": "InvalidParameter",
        "message": "The size is not match xxxxxx"
    }
}

output object

タスクの出力情報です。

プロパティ

task_id string

タスクの ID です。最大 24 時間、タスクのクエリに使用できます。

task_status string

タスクのステータスです。

列挙

  • PENDING

  • RUNNING

  • SUCCEEDED

  • FAILED

  • CANCELED

  • UNKNOWN:タスクが存在しないか、ステータスが不明です

submit_time string

タスクが送信された時刻です。時刻は UTC+8 です。フォーマット: YYYY-MM-DD HH:mm:ss.SSS

scheduled_time string

タスクが実行を開始した時刻です。時刻は UTC+8 です。フォーマット: YYYY-MM-DD HH:mm:ss.SSS

end_time string

タスクが完了した時刻です。時刻は UTC+8 です。フォーマット: YYYY-MM-DD HH:mm:ss.SSS

video_url string

ビデオ URL です。24 時間有効です。この URL を使用してビデオをダウンロードします。出力フォーマット:MP4 (H.264 エンコーディング)。

orig_prompt string

元の入力プロンプトです。

actual_prompt string

プロンプトの再書き込みが有効になった後に使用されるプロンプトです。プロンプトの再書き込みが無効になっている場合は返されません。

code string

エラーコードです。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

message string

詳細なエラーメッセージです。リクエストが失敗した場合にのみ返されます。詳細については、「エラーコード」をご参照ください。

usage object

出力統計です。成功したタスクに対してのみカウントされます。

プロパティ

video_duration integer

生成されたビデオの長さ (秒)。

video_ratio string

生成されたビデオのアスペクト比です。standard に固定されています。

video_count integer

生成されたビデオの数です。

request_id string

リクエストの一意の識別子です。問題の追跡とトラブルシューティングに使用します。

制限事項

  • データの有効期間task_id とビデオの video_url は 24 時間のみ有効です。有効期限が切れると、クエリやダウンロードはできなくなります。

  • オーディオサポート:現在、モデルは無音のビデオを生成し、オーディオ出力はサポートしていません。必要に応じて、音声合成を使用してオーディオを生成してください。

エラーコード

モデルの呼び出しが失敗し、エラーメッセージが返された場合は、トラブルシューティングについて「エラーメッセージ」をご参照ください。

よくある質問

Q:ビデオストレージ用のドメイン名のホワイトリストはどのように取得しますか?