wan2.2-s2v モデルは、1 枚の画像と 1 つのオーディオクリップを使用して、自然な動きで話したり、歌ったり、パフォーマンスしたりする人物の動画を生成します。このモデルは、ポートレート、全身、または半身の画像をサポートし、画像の構図に制限はありません。
このドキュメントは、中国 (北京) リージョンにのみ適用されます。モデルを使用するには、中国 (北京) リージョンの API キーが必要です。
モデルの概要
サンプル結果
サンプル入力 | 出力動画 |
入力オーディオ |
モデルと料金
モデル | 説明 | 単価 | レート制限 (Alibaba Cloud アカウントと RAM ユーザーで共有) | |
タスク送信 API の RPS 制限 | 同時タスク | |||
wan2.2-s2v-detect | 入力画像が、解像度、単一の人物、正面からのビューなどの要件を満たしているかどうかを確認します。 | $0.000574/イメージ | 5 | 同期 API の制限なし |
wan2.2-s2v | 検証済みの画像とオーディオクリップから人物の動的な動画を生成します。 | 480p: $0.071677/秒 720p: $0.129018/秒 | 5 | 1 |
デジタルヒューマン動画を生成するプロセスは次のとおりです。
ステップ 1: wan2.2-s2v-detect API を呼び出します。画像 URL を渡して、画像が準拠しているかどうかを確認します。
ステップ 2: 画像が準拠している場合は、非同期の wan2.2-s2v API を呼び出します。画像 URL とオーディオ URL を渡して、動画生成タスクを送信します。API をポーリングして結果を取得します。
開始
前提条件
API を呼び出す前に、Model Studio を有効化して API キーを取得します。次に、API キーを環境変数として設定します。
サンプルコード
このトピックのサンプル画像は検出に合格しています。次のサンプルコードは、動画を生成する方法を示しています。
HTTP リクエストには、タスクの作成と結果の取得の 2 つのステップが含まれます。
ステップ 1: タスクを作成してタスク ID を取得する
このリクエストは、結果のクエリに使用できる task_id を返します。
curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.2-s2v",
"input": {
"image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
"audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
},
"parameters": {
"style": "speech"
}
}'ステップ 2: タスク ID で結果をクエリする
実際のタスク ID で 86ecf553-d340-4e21-xxxxxxxxx を置き換えます。
シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得します。
次のコードは、シンガポールリージョンの base_url を提供します。北京リージョンのモデルを使用する場合は、base_url を https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} に置き換えてください
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"task_id は 24 時間有効です。タスク ID の有効期限が切れた後にタスクをクエリしようとすると、API は UNKNOWN のタスクステータスを返します。
モデルの比較
モデル選択の推奨事項: 全身または大きな半身の人物を含む動画を生成するには、wan2.2-s2v モデルを使用します。費用対効果を優先する場合は、代わりに EMO を選択してください。
機能比較 | デジタルヒューマン wan2.2-s2v | EMO (表示) |
モデルの説明 | より大きく自然な動き。サポートされるフレームの範囲が広い (特に全身)。漫画のキャラクターをサポートします。 | クローズアップやポートレートに適しています。自然な口パクと表情。 |
適用可能なフレーム | 全身、半身、ポートレート | ポートレート、半身 (推奨) |
呼び出しメソッド | 2 段階の呼び出し。検出 API はコンプライアンスチェックにのみ使用されるため、統合が簡素化されます。 | 2 段階の呼び出し。検出 API によって返される座標は、生成 API の必須の入力パラメーターです。 |
スタイルコントロール | シナリオ駆動 (スピーチ、歌、パフォーマンス) | スタイル駆動 (中程度、穏やか、活発) |
出力仕様 | 解像度別 (480p、720p) | 縦横比別 (1:1、3:4) |
モデル呼び出し価格 |
|
|
次のステップ
開発を開始するには、次の API ドキュメントをご参照ください。
