全部產品
Search
文件中心

Alibaba Cloud Model Studio:參考生視頻

更新時間:Feb 11, 2026

萬相-參考生視頻模型支援多模態輸入(文本/映像/視頻),可將人物或物體作為主角,根據提示詞產生自然生動的表演視頻。

  • 基礎能力:設定整數級視頻時間長度(2~10秒)、指定視頻解析度(720P/1080P)、添加浮水印。

  • 角色扮演:基於參考映像或視頻還原角色形象;若參考素材為視頻,還支援參考音色,支援單人表演或多角色互動。

  • 多鏡頭敘事:具備多鏡頭智能調度能力,支援自然對話與穩定互動,同時保持主體一致性。

快速入口:API參考Prompt指南

適用範圍

各地區支援的模型有所差異,且資源相互獨立。調用時,請務必確保模型、接入地址及 API Key 均屬於同一地區,否則將導致調用失敗。

支援的模型

全球

全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-r2v 推薦

有聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

文本、視頻

解析度檔位:720P、1080P

視頻時間長度:5s、10s

固定規格:30fps、MP4(H.264編碼)

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-r2v-flash 推薦

有聲視頻、無聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

產生速度更快,性價比高

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

wan2.6-r2v

有聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-r2v-flash 推薦

有聲視頻、無聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

產生速度更快,性價比高

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

wan2.6-r2v

有聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

說明

本文的範例程式碼適用於新加坡地區。如使用其他地區,請參見API參考

核心能力

多角色互動

支援模型:所有模型。

功能介紹:支援最多5個角色合拍,產生自然對話和互動,適用於訪談、對話、教學等情境。

參數設定:

  • reference_urls:最多傳入 5個 URL。每個URL可以指向一張映像或一段視頻。

    • 映像數量:0~5。參考圖可以是人物、物體和背景。

    • 視頻數量:0~3。推薦用於人物或物體參考,不建議使用背景或空鏡視頻。

    • 每個參考素材(視頻或映像)僅包含單一角色。

  • shot_type:推薦設定為multi,用於多鏡頭切換,增強互動表現力;也支援設定為single,單鏡頭固定視角。

  • prompt:提示詞通過“character1、character2”這類標識引用角色。角色順序與 reference_urls 數組一一對應,即第 1 個 URL 為 character1,第 2 個為 character2,依此類推。

參考映像和視頻

輸入提示詞:character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒緩的美國鄉村民謠。character1 對character2開口說道:“that sounds great”。

輸入視頻character1

參考人物

輸入視頻character2

參考人物

輸入映像character3

參考物體

輸入映像character4

參考背景

輸出視頻(多鏡頭,有聲視頻)

wan-r2v-object4

wan-r2v-backgroud5

參考視頻

輸入提示詞:character1對character2說: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!”

輸入視頻character1

參考人物

輸入視頻character2

參考物體

輸出視頻(多鏡頭,有聲視頻)

curl

步驟1:建立任務擷取任務ID

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "Character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒緩的美國鄉村民謠。Character1 對Character2開口說道:“that sounds great“",
        "reference_urls": [
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/aacgyk/wan-r2v-role1.mp4",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mmizqq/wan-r2v-role2.mp4",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qpzxps/wan-r2v-object4.png",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/wfjikw/wan-r2v-backgroud5.png"
        ]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 10,
        "audio": true,
        "shot_type": "multi",
        "watermark": true
    }
}'

步驟2:根據任務ID擷取結果

{task_id}完整替換為上一步介面返回的task_id的值。

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

單角色表演

支援模型:所有模型。

功能介紹:基於參考視頻和參考映像中的角色在不同情境中展現完整表演,適用於個人品牌、產品代言、教育培訓等。

參數設定

  • reference_urls:傳入1個視頻或1張映像。

  • shot_type:推薦設定為multi,用於多鏡頭切換,增強互動表現力;也支援設定為single,單鏡頭固定視角。

  • prompt:使用“character1”引用參考素材中的角色。

輸入提示詞

輸入視頻character1

輸出視頻(多鏡頭,有聲視頻)

Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: "This holiday glow is exactly what I wanted!" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera.

curl

步驟1:建立任務擷取任務ID

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "Create a festive holiday unboxing experience.Shot 1 [0-2s]: Character1 sits by a beautifully decorated Christmas tree with twinkling lights, holding a wrapped gift box with elegant red and gold wrapping. Shot 2 [2-4s]: Close-up as Character1 carefully unwraps the gift, revealing premium skincare products inside. Shot 3 [4-6s]: Character1 applies the product with delight, saying: \"This holiday glow is exactly what I wanted!\" Shot 4 [6-10s]: Character1 admires their radiant skin in a handheld mirror, surrounded by festive decorations, ending with a warm smile to camera.",
        "reference_urls":["https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/en-US/20260205/mjgmzx/wan-r2v-role-4.mp4"]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 10,
        "shot_type":"multi",
        "watermark": true
    }
}'

步驟2:根據任務ID擷取結果

{task_id}完整替換為上一步介面返回的task_id的值。

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

產生無聲視頻

支援模型wan2.6-r2v-flash

功能介紹:適用於無需音訊純視覺展示情境,如動態海報、無聲短視頻等。

參數設定

  • audio:若需產生無聲視頻,必須顯式設定 audio = false

  • prompt:傳入一個參考素材時,使用“character1”引用角色。

輸入提示詞

輸入視頻character1

輸出視頻(無聲視頻)

character1一邊喝奶茶,一邊隨著音樂即興跳舞。

curl

步驟1:建立任務擷取任務ID

curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "character1一邊喝奶茶,一邊隨著音樂即興跳舞。",
        "reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 5,
        "shot_type":"multi",
        "audio": false,
        "watermark": true
    }
}'

步驟2:根據任務ID擷取結果

{task_id}完整替換為上一步介面返回的task_id的值。

curl -X GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

如何輸入參考素材

輸入映像

  • 映像數量:最多5張。

  • 總數限制:映像 + 視頻 ≤ 5。

  • 輸入方式

    • 公網URL:支援 HTTP 或 HTTPS 協議。樣本:https://xxxx/xxx.png。

輸入視頻

  • 視頻數量:最多3個。

  • 總數限制:映像 + 視頻 ≤ 5。

  • 輸入方式

    • 公網URL:支援 HTTP 或 HTTPS 協議。樣本:https://xxxx/xxx.mp4。

輸出視頻

  • 視頻個數:1個。

  • 視頻規格:格式為MP4。詳細規格請參見支援的模型

  • 視頻URL有效期間24小時

  • 視頻尺寸:由size指定的解析度決定。例如,當 size 設定為 1280*720 時,輸出視頻的寬高比為 16:9

計費與限流

  • 模型免費額度和計費單價請參見萬相-參考生視頻

  • 模型限流請參見萬相系列

  • 計費說明:

    • 輸入映像不計費,輸入視頻和輸出視頻計費,按視頻秒數計費。

    • 模型調用失敗或處理錯誤不產生任何費用,也不消耗新人免費額度

    • 有聲視頻與無聲視頻價格不同(如wan2.6-r2v-flash)。

  • 計費時間長度計算規格:

    • 總計費時間長度 = 輸入視頻時間長度(上限5秒)+ 輸出視頻時間長度

    • 輸入視頻計費時間長度:總輸入視頻計費時間長度不超過 5 秒

      • 計算規則:按參考素材總數(映像 + 視頻)均分,作為單個視頻的截斷上限。每個視頻按 min(實際時間長度, 截斷上限) 計費,多和視頻計費時間長度累計相加。

      • 樣本:輸入 3 個素材(1 張映像 + 2 個視頻),單視頻截斷上限為 1.65 秒,則:

        輸入計費時間長度 = min(視頻1時間長度, 1.65s) + min(視頻2時間長度, 1.65s),映像不計費。

    • 輸出視頻計費時間長度:模型成功產生的視頻秒數

更多樣本:輸入視頻計費時間長度計算

  • 輸入1個參考素材:單視頻截斷上限為5秒。

    • 若為視頻:輸入計費時間長度=min(視頻時間長度,5s)

    • 若為映像:免費。

  • 輸入2個參考素材:單視頻截斷上限為2.5秒。

    • 若1個視頻+1張映像:輸入計費時間長度=min(視頻1時間長度,2.5s)

    • 若2個視頻:輸入計費時間長度=min(視頻1時間長度,2.5s)+ min(視頻2時間長度,2.5s)

  • 輸入3個參考素材:單視頻截斷上限為1.65秒。

    • 若1個視頻+2張映像:輸入計費時間長度=min(視頻1長度,1.65s)

    • 若3個視頻:輸入計費時間長度=min(視頻1長度,1.65s)+ min(視頻2長度,1.65s)+min(視頻3長度,1.65s)

  • 輸入4個參考素材:單視頻截斷上限為1.25秒。

    • 若2個視頻+2張映像:輸入計費時間長度=min(視頻1長度,1.25s)+ min(視頻2長度,1.25s)

    • 若3個視頻+1張映像:輸入計費時間長度=min(視頻1長度,1.25s)+ min(視頻2長度,1.25s)+min(視頻3長度,1.25s)

  • 輸入5個參考素材:單視頻截斷上限為1秒。

    • 若1個視頻+4張映像:輸入計費時間長度=min(視頻1長度,1s)

    • 若3個視頻+2張映像:輸入計費時間長度=min(視頻1長度,1s)+ min(視頻2長度,1s)+min(視頻3長度,1s)

API文檔

參考生視頻API參考

常見問題

Q:如何設定視頻寬高比(如 16:9)?

A:通過 size 參數指定視頻解析度,系統將根據該解析度自動確定寬高比。

例如,設定 size=1280*720 即可輸出 16:9 的視頻。每個size對應一個固定的寬高比,請根據目標比例選擇合適的解析度。

Q:如何在提示詞中引用參考素材中的角色?

A:每個參考素材(視頻或映像)僅包含單一角色。使用 character1character2 等標識引用參考中的角色,順序對應 reference_urls 數組的順序。例如:

"reference_urls":[
    'https://example.com/girl.mp4',   # character1
    'https://example.com/clock.mp4'   # character2
]