全部產品
Search
文件中心

Alibaba Cloud Model Studio:通義萬相-數字人

更新時間:Oct 16, 2025

數字人wan2.2-s2v模型支援基於單張圖片和音頻,產生動作自然的說話、唱歌或表演視頻,不限制形象畫幅,支援肖像、全身或半身的人物映像。

重要

本文檔僅適用於“中國大陸(北京)”地區。如需使用模型,需使用“中國大陸(北京)”地區的API Key

模型概覽

效果樣本

輸入樣本

輸出視頻

input_image

輸入音頻

模型與價格

模型名稱

模型簡介

計費單價

限流(主帳號與RAM子帳號共用)

任務下發介面RPS限制

同時處理中任務數量

wan2.2-s2v-detect

檢查輸入映像是否滿足要求(如清晰度、單人、正面)。

$0.000574/張

5

同步介面無限制

wan2.2-s2v

根據檢測通過的圖片和一段音頻,產生人物動態視頻。

480P:$0.071677/秒

720P:$0.129018/秒

5

1

產生數字人視頻的流程為:

  • 步驟一:調用 wan2.2-s2v-detect 介面,傳入圖片URL,確認圖片合規。

  • 步驟二:若檢測通過,調用 wan2.2-s2v 非同步介面,傳入圖片URL和音頻URL,提交視頻產生任務,並輪詢擷取結果。

快速開始

前提條件

在調用前,您需要開通模型服務並擷取API Key,再配置API Key到環境變數(準備下線,併入配置 API Key)

範例程式碼

本文的樣本圖片已通過映像檢測,以下展示視頻產生的範例程式碼。

說明

HTTP 要求分兩步:先建立任務,再擷取結果。

步驟1:建立任務擷取任務ID

該請求會返回一個task_id用於查詢結果。

curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
 --header 'X-DashScope-Async: enable' \
 --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
 --header 'Content-Type: application/json' \
 --data '{
     "model": "wan2.2-s2v",
     "input": {
            "image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
            "audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
        },
        "parameters": {
            "style": "speech"
        }
    }'
步驟2:根據任務ID查詢結果

請將86ecf553-d340-4e21-xxxxxxxxx替換為真實的task_id。

新加坡和北京地區的API Key不同。準備工作:擷取與配置 API Key
以下為新加坡地區base_url,若使用北京地區的模型,需將base_url替換為https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

task_id查詢有效期間為24小時,到期將無法查詢,介面將返回任務狀態為UNKNOWN

模型對比

模型選型建議:如需產生包含人物全身或大半身的視頻,推薦使用 wan2.2-s2v 模型;若追求性價比,可選擇悅動人像EMO。

功能對比

數字人wan2.2-s2v

悅動人像EMO查看

模型簡介

動作幅度更大更自然,畫幅支援範圍廣(尤其全身),支援卡通人物形象

更適合人物特寫或肖像,對口型表情自然

適用畫幅

全身、半身、肖像

肖像、半身(推薦)

調用方式

兩步調用,檢測介面僅用於合規性校正,接入更簡單

兩步調用,檢測介面返回的座標是產生介面的必需入參

風格控制

情境驅動(說話, 唱歌, 表演)

風格驅動(適中、平靜、活潑)

輸出規格

按解析度(480P, 720P)

按畫幅比(1:1, 3:4)

模型調用價格

  • 映像檢測:0.004元/張

  • 視頻產生:

    • 480P: 0.5元/秒

    • 720P: 0.9元/秒

  • 映像檢測:0.004元/張

  • 視頻產生:

    • 1:1畫幅: 0.08元/秒 

    • 3:4畫幅: 0.16元/秒

下一步

根據您的具體需求,查閱API文檔開始您的開發工作:

映像檢測API

視頻產生API