數字人wan2.2-s2v模型支援基於單張圖片和音頻,產生動作自然的說話、唱歌或表演視頻,不限制形象畫幅,支援肖像、全身或半身的人物映像。
本文檔僅適用於“中國大陸(北京)”地區。如需使用模型,需使用“中國大陸(北京)”地區的API Key。
模型概覽
效果樣本
輸入樣本 | 輸出視頻 |
輸入音頻 |
模型與價格
模型名稱 | 模型簡介 | 計費單價 | 限流(主帳號與RAM子帳號共用) | |
任務下發介面RPS限制 | 同時處理中任務數量 | |||
wan2.2-s2v-detect | 檢查輸入映像是否滿足要求(如清晰度、單人、正面)。 | $0.000574/張 | 5 | 同步介面無限制 |
wan2.2-s2v | 根據檢測通過的圖片和一段音頻,產生人物動態視頻。 | 480P:$0.071677/秒 720P:$0.129018/秒 | 5 | 1 |
產生數字人視頻的流程為:
步驟一:調用 wan2.2-s2v-detect 介面,傳入圖片URL,確認圖片合規。
步驟二:若檢測通過,調用 wan2.2-s2v 非同步介面,傳入圖片URL和音頻URL,提交視頻產生任務,並輪詢擷取結果。
快速開始
前提條件
在調用前,您需要開通模型服務並擷取API Key,再配置API Key到環境變數(準備下線,併入配置 API Key)。
範例程式碼
本文的樣本圖片已通過映像檢測,以下展示視頻產生的範例程式碼。
HTTP 要求分兩步:先建立任務,再擷取結果。
步驟1:建立任務擷取任務ID
該請求會返回一個task_id用於查詢結果。
curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
--header 'X-DashScope-Async: enable' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.2-s2v",
"input": {
"image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
"audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
},
"parameters": {
"style": "speech"
}
}'步驟2:根據任務ID查詢結果
請將86ecf553-d340-4e21-xxxxxxxxx替換為真實的task_id。
新加坡和北京地區的API Key不同。準備工作:擷取與配置 API Key。
以下為新加坡地區base_url,若使用北京地區的模型,需將base_url替換為https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"task_id查詢有效期間為24小時,到期將無法查詢,介面將返回任務狀態為UNKNOWN。
模型對比
模型選型建議:如需產生包含人物全身或大半身的視頻,推薦使用 wan2.2-s2v 模型;若追求性價比,可選擇悅動人像EMO。
功能對比 | 數字人wan2.2-s2v | 悅動人像EMO(查看) |
模型簡介 | 動作幅度更大更自然,畫幅支援範圍廣(尤其全身),支援卡通人物形象 | 更適合人物特寫或肖像,對口型表情自然 |
適用畫幅 | 全身、半身、肖像 | 肖像、半身(推薦) |
調用方式 | 兩步調用,檢測介面僅用於合規性校正,接入更簡單 | 兩步調用,檢測介面返回的座標是產生介面的必需入參 |
風格控制 | 情境驅動(說話, 唱歌, 表演) | 風格驅動(適中、平靜、活潑) |
輸出規格 | 按解析度(480P, 720P) | 按畫幅比(1:1, 3:4) |
模型調用價格 |
|
|
下一步
根據您的具體需求,查閱API文檔開始您的開發工作:
