すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Wan - デジタルヒューマン

最終更新日:Oct 22, 2025

wan2.2-s2v モデルは、1 枚の画像と 1 つのオーディオクリップを使用して、自然な動きで話したり、歌ったり、パフォーマンスしたりする人物の動画を生成します。このモデルは、ポートレート、全身、または半身の画像をサポートし、画像の構図に制限はありません。

重要

このドキュメントは、中国 (北京) リージョンにのみ適用されます。モデルを使用するには、中国 (北京) リージョンの API キーが必要です。

モデルの概要

サンプル結果

サンプル入力

出力動画

input_image

入力オーディオ

モデルと料金

モデル

説明

単価

レート制限 (Alibaba Cloud アカウントと RAM ユーザーで共有)

タスク送信 API の RPS 制限

同時タスク

wan2.2-s2v-detect

入力画像が、解像度、単一の人物、正面からのビューなどの要件を満たしているかどうかを確認します。

$0.000574/イメージ

5

同期 API の制限なし

wan2.2-s2v

検証済みの画像とオーディオクリップから人物の動的な動画を生成します。

480p: $0.071677/秒

720p: $0.129018/秒

5

1

デジタルヒューマン動画を生成するプロセスは次のとおりです。

  • ステップ 1: wan2.2-s2v-detect API を呼び出します。画像 URL を渡して、画像が準拠しているかどうかを確認します。

  • ステップ 2: 画像が準拠している場合は、非同期の wan2.2-s2v API を呼び出します。画像 URL とオーディオ URL を渡して、動画生成タスクを送信します。API をポーリングして結果を取得します。

開始

前提条件

API を呼び出す前に、Model Studio を有効化して API キーを取得します。次に、API キーを環境変数として設定します。

サンプルコード

このトピックのサンプル画像は検出に合格しています。次のサンプルコードは、動画を生成する方法を示しています。

説明

HTTP リクエストには、タスクの作成と結果の取得の 2 つのステップが含まれます。

ステップ 1: タスクを作成してタスク ID を取得する

このリクエストは、結果のクエリに使用できる task_id を返します。

curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
 --header 'X-DashScope-Async: enable' \
 --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
 --header 'Content-Type: application/json' \
 --data '{
     "model": "wan2.2-s2v",
     "input": {
            "image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
            "audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
        },
        "parameters": {
            "style": "speech"
        }
    }'
ステップ 2: タスク ID で結果をクエリする

実際のタスク ID で 86ecf553-d340-4e21-xxxxxxxxx を置き換えます。

シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得します。
次のコードは、シンガポールリージョンの base_url を提供します。北京リージョンのモデルを使用する場合は、base_url を https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} に置き換えてください
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

task_id は 24 時間有効です。タスク ID の有効期限が切れた後にタスクをクエリしようとすると、API は UNKNOWN のタスクステータスを返します。

モデルの比較

モデル選択の推奨事項: 全身または大きな半身の人物を含む動画を生成するには、wan2.2-s2v モデルを使用します。費用対効果を優先する場合は、代わりに EMO を選択してください。

機能比較

デジタルヒューマン wan2.2-s2v

EMO (表示)

モデルの説明

より大きく自然な動き。サポートされるフレームの範囲が広い (特に全身)。漫画のキャラクターをサポートします。

クローズアップやポートレートに適しています。自然な口パクと表情。

適用可能なフレーム

全身、半身、ポートレート

ポートレート、半身 (推奨)

呼び出しメソッド

2 段階の呼び出し。検出 API はコンプライアンスチェックにのみ使用されるため、統合が簡素化されます。

2 段階の呼び出し。検出 API によって返される座標は、生成 API の必須の入力パラメーターです。

スタイルコントロール

シナリオ駆動 (スピーチ、歌、パフォーマンス)

スタイル駆動 (中程度、穏やか、活発)

出力仕様

解像度別 (480p、720p)

縦横比別 (1:1、3:4)

モデル呼び出し価格

  • 画像検出: $0.000574/イメージ

  • 動画生成:

    • 480p: $0.071677/秒

    • 720p: $0.129018/秒

  • 画像検出: $0.000574/イメージ

  • 動画生成:

    • 1:1 縦横比: $0.011469/秒

    • 3:4 縦横比: $0.022937/秒

次のステップ

開発を開始するには、次の API ドキュメントをご参照ください。

画像検出 API

動画生成 API