萬相-參考生視頻模型支援多模態輸入(文本/映像/視頻),可將人物或物體作為主角,根據提示詞產生自然生動的表演視頻。
基礎能力:設定整數級視頻時間長度(2~10秒)、指定視頻解析度(720P/1080P)、添加浮水印。
角色扮演:基於參考映像或視頻還原角色形象;若參考素材為視頻,還支援參考音色,支援單人表演或多角色互動。
多鏡頭敘事:具備多鏡頭智能調度能力,支援自然對話與穩定互動,同時保持主體一致性。
適用範圍
各地區支援的模型有所差異,且資源相互獨立。調用時,請務必確保模型、接入地址及 API Key 均屬於同一地區,否則將導致調用失敗。
支援的模型:
全球
在全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-r2v | 有聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 | 文本、視頻 | 解析度檔位:720P、1080P 視頻時間長度:5s、10s 固定規格:30fps、MP4(H.264編碼) |
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-r2v-flash | 有聲視頻、無聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 產生速度更快,性價比高 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
wan2.6-r2v | 有聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-r2v-flash | 有聲視頻、無聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 產生速度更快,性價比高 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
wan2.6-r2v | 有聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
本文的範例程式碼適用於新加坡地區。如使用其他地區,請參見API參考。
核心能力
多角色互動
支援模型:所有模型。
功能介紹:支援最多5個角色合拍,產生自然對話和互動,適用於訪談、對話、教學等情境。
參數設定:
reference_urls:最多傳入 5個 URL。每個URL可以指向一張映像或一段視頻。映像數量:0~5。參考圖可以是人物、物體和背景。
視頻數量:0~3。推薦用於人物或物體參考,不建議使用背景或空鏡視頻。
每個參考素材(視頻或映像)僅包含單一角色。
shot_type:推薦設定為multi,用於多鏡頭切換,增強互動表現力;也支援設定為single,單鏡頭固定視角。prompt:提示詞通過“character1、character2”這類標識引用角色。角色順序與reference_urls數組一一對應,即第 1 個 URL 為 character1,第 2 個為 character2,依此類推。
參考映像和視頻
輸入提示詞:character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒緩的美國鄉村民謠。character1 對character2開口說道:“that sounds great”。 | ||||
輸入視頻character1 參考人物 | 輸入視頻character2 參考人物 | 輸入映像character3 參考物體 | 輸入映像character4 參考背景 | 輸出視頻(多鏡頭,有聲視頻) |
|
| |||
參考視頻
輸入提示詞:character1對character2說: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!” | ||
輸入視頻character1 參考人物 | 輸入視頻character2 參考物體 | 輸出視頻(多鏡頭,有聲視頻) |
curl
步驟1:建立任務擷取任務ID
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "Character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒緩的美國鄉村民謠。Character1 對Character2開口說道:“that sounds great“",
"reference_urls": [
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/aacgyk/wan-r2v-role1.mp4",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mmizqq/wan-r2v-role2.mp4",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qpzxps/wan-r2v-object4.png",
"https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/wfjikw/wan-r2v-backgroud5.png"
]
},
"parameters": {
"size": "1280*720",
"duration": 10,
"audio": true,
"shot_type": "multi",
"watermark": true
}
}'步驟2:根據任務ID擷取結果
將{task_id}完整替換為上一步介面返回的task_id的值。
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"單角色表演
支援模型:所有模型。
功能介紹:基於參考視頻和參考映像中的角色在不同情境中展現完整表演,適用於個人品牌、產品代言、教育培訓等。
參數設定:
reference_urls:傳入1個視頻或1張映像。shot_type:推薦設定為multi,用於多鏡頭切換,增強互動表現力;也支援設定為single,單鏡頭固定視角。prompt:使用“character1”引用參考素材中的角色。
輸入提示詞 | 輸入視頻character1 | 輸出視頻(多鏡頭,有聲視頻) |
Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: "This holiday glow is exactly what I wanted!" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera. |
curl
步驟1:建立任務擷取任務ID
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: \"This holiday glow is exactly what I wanted!\" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera.",
"reference_urls":["https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mjgmzx/wan-r2v-role-4.mp4"]
},
"parameters": {
"size": "1280*720",
"duration": 10,
"shot_type":"multi",
"watermark": true
}
}'步驟2:根據任務ID擷取結果
將{task_id}完整替換為上一步介面返回的task_id的值。
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"產生無聲視頻
支援模型:wan2.6-r2v-flash。
功能介紹:適用於無需音訊純視覺展示情境,如動態海報、無聲短視頻等。
參數設定:
audio:若需產生無聲視頻,必須顯式設定audio = false。prompt:傳入一個參考素材時,使用“character1”引用角色。
輸入提示詞 | 輸入視頻character1 | 輸出視頻(無聲視頻) |
character1一邊喝奶茶,一邊隨著音樂即興跳舞。 |
curl
步驟1:建立任務擷取任務ID
curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
-H 'X-DashScope-Async: enable' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "wan2.6-r2v-flash",
"input": {
"prompt": "character1一邊喝奶茶,一邊隨著音樂即興跳舞。",
"reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
},
"parameters": {
"size": "1280*720",
"duration": 5,
"shot_type":"multi",
"audio": false,
"watermark": true
}
}'步驟2:根據任務ID擷取結果
將{task_id}完整替換為上一步介面返回的task_id的值。
curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"如何輸入參考素材
輸入映像
映像數量:最多5張。
總數限制:映像 + 視頻 ≤ 5。
輸入方式:
公網URL:支援 HTTP 或 HTTPS 協議。樣本:https://xxxx/xxx.png。
輸入視頻
視頻數量:最多3個。
總數限制:映像 + 視頻 ≤ 5。
輸入方式:
公網URL:支援 HTTP 或 HTTPS 協議。樣本:https://xxxx/xxx.mp4。
輸出視頻
計費與限流
模型免費額度和計費單價請參見萬相-參考生視頻。
模型限流請參見萬相系列。
計費說明:
輸入映像不計費,輸入視頻和輸出視頻計費,按視頻秒數計費。
模型調用失敗或處理錯誤不產生任何費用,也不消耗新人免費額度。
有聲視頻與無聲視頻價格不同(如wan2.6-r2v-flash)。
計費時間長度計算規格:
總計費時間長度 = 輸入視頻時間長度(上限5秒)+ 輸出視頻時間長度。
輸入視頻計費時間長度:總輸入視頻計費時間長度不超過 5 秒。
計算規則:按參考素材總數(映像 + 視頻)均分,作為單個視頻的截斷上限。每個視頻按
min(實際時間長度, 截斷上限)計費,多和視頻計費時間長度累計相加。樣本:輸入 3 個素材(1 張映像 + 2 個視頻),單視頻截斷上限為 1.65 秒,則:
輸入計費時間長度 =
min(視頻1時間長度, 1.65s) + min(視頻2時間長度, 1.65s),映像不計費。
輸出視頻計費時間長度:模型成功產生的視頻秒數。
API文檔
常見問題
Q:如何設定視頻寬高比(如 16:9)?
A:通過 size 參數指定視頻解析度,系統將根據該解析度自動確定寬高比。
例如,設定 size=1280*720 即可輸出 16:9 的視頻。每個size對應一個固定的寬高比,請根據目標比例選擇合適的解析度。
Q:如何在提示詞中引用參考素材中的角色?
A:每個參考素材(視頻或映像)僅包含單一角色。使用 character1、character2 等標識引用參考中的角色,順序對應 reference_urls 數組的順序。例如:
"reference_urls":[
'https://example.com/girl.mp4', # character1
'https://example.com/clock.mp4' # character2
]
