全部產品
Search
文件中心

Alibaba Cloud Model Studio:視頻產生

更新時間:Feb 07, 2026

阿里雲百鍊提供豐富的視頻產生模型,覆蓋通用創作(文生視頻、圖生視頻、參考生視頻、視頻編輯)與垂直情境(數字人對口型、圖生動作、視頻換人、表情包製作等)多樣化需求。

模型總覽

部署模式

查看各模式區別

全球

模型推理計算資源全球調度

國際

模型推理計算資源全球調度(不含中國內地)

美國

模型推理計算資源僅限美國境內

中國內地

模型推理計算資源僅限中國內地

接入地區

維吉尼亞

新加坡

維吉尼亞

北京

支援的模型

萬相-文生視頻

萬相-圖生視頻-基於首幀

萬相-參考生視頻

萬相-文生視頻

萬相-圖生視頻-基於首幀

萬相-圖生視頻-基於首尾幀

萬相-參考生視頻

萬相-通用視頻編輯

萬相-圖生動作

萬相-視頻換人

萬相-文生視頻

萬相-圖生視頻-基於首幀

萬相-文生視頻

萬相-圖生視頻-基於首幀

萬相-圖生視頻-基於首尾幀

萬相-參考生視頻

萬相-通用視頻編輯

萬相-數字人

萬相-圖生動作

萬相-視頻換人

舞動人像AnimateAnyone

悅動人像EMO

靈動人像LivePortrait

表情包Emoji

聲動人像VideoRetalk

視頻風格重繪

模型選型

支援的模型

萬相-文生視頻

根據文本提示詞產生視頻。支援輸入文本+音頻,輸齣電影級多鏡頭視頻。

API參考模型價格|線上體驗:新加坡維吉尼亞北京

全球

全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-t2v 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、音頻

解析度檔位:720P、1080P

視頻時間長度:5s、10s 、15s

固定規格:30fps、MP4 (H.264編碼)

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-t2v 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、音頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 15s](整數)

固定規格:30fps、MP4 (H.264編碼)

wan2.5-t2v-preview 推薦

有聲視頻

聲畫同步

文本、音頻

解析度檔位:480P、720P、1080P

視頻時間長度:5s、10s

固定規格:30fps、MP4 (H.264編碼) 

wan2.2-t2v-plus

無聲視頻

較2.1模型穩定性與成功率全面提升

文本

解析度檔位:480P、1080P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wan2.1-t2v-turbo

無聲視頻

文本

解析度檔位:480P、720P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wan2.1-t2v-plus

無聲視頻

文本

解析度檔位:720P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

美國

美國部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源僅限於美國境內。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-t2v-us 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、音頻

解析度檔位:720P、1080P

視頻時間長度:5s、10s 、15s

固定規格:30fps、MP4 (H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-t2v 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、音頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 15s](整數)

固定規格:30fps、MP4 (H.264編碼)

wan2.5-t2v-preview 推薦

有聲視頻

聲畫同步

文本、音頻

解析度檔位:480P、720P、1080P

視頻時間長度:5s、10s

固定規格:30fps、MP4 (H.264編碼) 

wan2.2-t2v-plus

無聲視頻

較2.1模型穩定性與成功率全面提升

文本

解析度檔位:480P、1080P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wanx2.1-t2v-turbo

無聲視頻

文本

解析度檔位:480P、720P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wanx2.1-t2v-plus

無聲視頻

文本

解析度檔位:720P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

輸入提示詞

輸出視頻(wan2.6,多鏡頭視頻)

Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '.

萬相-圖生視頻-基於首幀

根據給定的首幀映像產生視頻。支援輸入文本+首幀映像+音頻,輸齣電影級多鏡頭視頻。

API參考模型價格|線上體驗:新加坡維吉尼亞北京

全球

全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-i2v 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、映像、音頻

解析度檔位:720P、1080P

視頻時間長度:5s、10s 、15s

固定規格:30fps、MP4 (H.264編碼)

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-i2v-flash 推薦

有聲視頻、無聲視頻

多鏡頭敘事、聲畫同步

文本、映像、音頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 15s](整數)

固定規格:30fps、MP4 (H.264編碼)

wan2.6-i2v 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、映像、音頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 15s](整數)

固定規格:30fps、MP4 (H.264編碼)

wan2.5-i2v-preview

有聲視頻

聲畫同步

文本、映像、音頻

解析度檔位:480P、720P、1080P

視頻時間長度:5s、10s

固定規格:30fps、MP4 (H.264編碼) 

wan2.2-i2v-flash

無聲視頻

較2.1模型速度提升50%

文本、映像

解析度檔位:480P、720P、1080P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wan2.2-i2v-plus

無聲視頻

較2.1模型穩定性與成功率全面提升

文本、映像

解析度檔位:480P、1080P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wan2.1-i2v-plus

無聲視頻

文本、映像

解析度檔位:720P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wan2.1-i2v-turbo

無聲視頻

文本、映像

解析度檔位:480P、720P

視頻時間長度:3s、4s、5s

固定規格:30fps、MP4 (H.264編碼) 

美國

美國部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源僅限於美國境內。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-i2v-us 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、映像、音頻

解析度檔位:720P、1080P

視頻時間長度:5s、10s 、15s

固定規格:30fps、MP4 (H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-i2v-flash 推薦

有聲視頻、無聲視頻

多鏡頭敘事、聲畫同步

文本、映像、音頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 15s](整數)

固定規格:30fps、MP4 (H.264編碼)

wan2.6-i2v 推薦

有聲視頻

多鏡頭敘事、聲畫同步

文本、映像、音頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 15s](整數)

固定規格:30fps、MP4 (H.264編碼)

wan2.5-i2v-preview

有聲視頻

聲畫同步

文本、映像、音頻

解析度檔位:480P、720P、1080P

視頻時間長度:5s、10s

固定規格:30fps、MP4 (H.264編碼) 

wan2.2-i2v-flash

無聲視頻

較2.1模型速度提升50%

文本、映像

解析度檔位:480P、720P、1080P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wan2.2-i2v-plus

無聲視頻

較2.1模型穩定性與成功率全面提升

文本、映像

解析度檔位:480P、1080P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wanx2.1-i2v-plus

無聲視頻

文本、映像

解析度檔位:720P

視頻時間長度:5s

固定規格:30fps、MP4 (H.264編碼) 

wanx2.1-i2v-turbo

無聲視頻

文本、映像

解析度檔位:480P、720P

視頻時間長度:3s、4s、5s

固定規格:30fps、MP4 (H.264編碼) 

輸入提示詞

輸入首幀映像和音頻

輸出視頻(wan2.6,多鏡頭視頻)

一幅都市奇幻藝術的情境。一個充滿動感的塗鴉藝術角色。一個由噴漆所畫成的少年,正從一面混凝土牆上活過來。他一邊用極快的語速演唱一首英文rap,一邊擺著一個經典的、充滿活力的饒舌歌手姿勢。情境設定在夜晚一個充滿都市感的鐵路橋下。燈光來自一盞孤零零的街燈,營造齣電影般的氛圍,充滿高能量和驚人的細節。視頻的音頻部分完全由他的rap構成,沒有其他對話或雜音。

rap-轉換自-png

輸入音頻

萬相-圖生視頻-基於首尾幀

根據給定的首幀映像和尾幀映像,產生過渡自然的視頻。支援輸入文本+首幀映像+尾幀映像+音頻,輸齣電影級多鏡頭視頻。

API參考模型價格線上體驗

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.2-kf2v-flash 推薦

無聲視頻

較2.1模型穩定性與成功率全面提升

文本、映像

解析度檔位:480P、720P、1080P

視頻時間長度:5s

固定規格:30fps、MP4(H.264編碼)

wan2.1-kf2v-plus

無聲視頻

文本、映像

解析度檔位:720P

視頻時間長度:5s

固定規格:30fps、MP4(H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.2-kf2v-flash 推薦

無聲視頻

較2.1模型穩定性與成功率全面提升

文本、映像

解析度檔位:480P、720P、1080P

視頻時間長度:5秒

固定規格:30fps、MP4(H.264編碼)

wanx2.1-kf2v-plus

無聲視頻

文本、映像

解析度檔位:720P

視頻時間長度:5s

固定規格:30fps、MP4(H.264編碼)

輸入首幀映像

輸入尾幀映像

輸入提示詞

輸出視頻

first_frame

last_frame

寫實風格,一隻黑色小貓好奇地看向天空,鏡頭從平視逐漸上升,最後俯拍小貓好奇的眼神。

萬相-參考生視頻

指定視頻中的角色進行表演。輸入視頻+文本提示詞,輸出視頻保持角色一致性。

API參考模型價格

全球

全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-r2v 推薦

有聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

文本、視頻

解析度檔位:720P、1080P

視頻時間長度:5s、10s

固定規格:30fps、MP4(H.264編碼)

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-r2v-flash 推薦

有聲視頻、無聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

產生速度更快,性價比高

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

wan2.6-r2v

有聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.6-r2v-flash 推薦

有聲視頻、無聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

產生速度更快,性價比高

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

wan2.6-r2v

有聲視頻

參考多角色生視頻

多鏡頭敘事、聲畫同步

文本、映像、視頻

解析度檔位:720P、1080P

視頻時間長度:[2s, 10s](整數)

固定規格:30fps、MP4(H.264編碼)

輸入參考視頻1(角色為小女孩)

輸入參考視頻2(角色為鬧鐘)

輸入提示詞

輸出視頻(多角色對話)

character1對character2說: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!”

萬相-通用視頻編輯

視頻編輯通用模型。支援輸入文本、映像、視頻多模態資料,可執行多種視頻產生與編輯任務。

API參考模型價格

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.1-vace-plus

無聲視頻

多圖參考、視頻重繪、局部編輯、視頻延展、視頻畫面擴充

文本、映像、視頻

解析度檔位:720P

視頻時間長度:不超過5s

固定規格:30fps、MP4(H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wanx2.1-vace-plus

無聲視頻

多圖參考、視頻重繪、局部編輯、視頻延展、視頻畫面擴充

文本、映像、視頻

解析度檔位:720P

視頻時間長度:不超過5s

固定規格:30fps、MP4(H.264編碼)

  • 功能一:多圖參考

    輸入參考圖1(參考主體)

    輸入參考圖2(參考背景)

    輸入提示詞

    輸出視頻

    image

    image

    視頻中,一位女孩自晨霧繚繞的古老森林深處款款走出,她步伐輕盈,鏡頭捕捉她每一個靈動瞬間。當她站定,環顧四周蔥鬱林木時,她臉上綻放出驚喜與喜悅交織的笑容。這一幕,定格在了光影交錯的瞬間,記錄下她與大自然的美妙邂逅。

  • 功能二:視頻重繪

    輸入視頻

    輸入提示詞

    輸出視頻

    視頻展示了一輛黑色的蒸汽龐克風格汽車,紳士駕駛著,車輛裝飾著齒輪和銅管。背景是蒸汽驅動的糖果工廠和複古元素,畫面複古與趣味

  • 功能三:視頻局部編輯

    輸入視頻

    輸入遮罩映像(白色地區表示編輯地區)

    輸入提示詞

    輸出視頻

    mask

    視頻展示了一家巴黎風情的法式咖啡館,一隻穿著西裝的獅子優雅地品著咖啡。它一手端著咖啡杯,輕輕啜飲,神情愜意。咖啡館裝飾雅緻,柔和的色調與溫暖燈光映照著獅子所在的地區。

  • 功能四:視頻延展

    輸入首片段視頻(1秒)

    輸入提示詞

    輸出視頻(延長後的視頻為5秒)

    一隻戴著墨鏡的狗在街道上滑滑板,3D卡通。

  • 功能五:視頻畫面擴充

    輸入視頻

    輸入提示詞

    輸出視頻

    一位優雅的女士正在激情演奏小提琴,她身後是一支完整的交響樂團

萬相-數字人

說明

僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

數字人對口型:讓映像中人或卡通形象說話、唱歌、播報或表演(圖生唱演和播報視頻)。輸入映像 + 音頻,輸出視頻自動為人物或卡通形象匹配口型、面部表情、頭部及身體動作。

映像檢測API參考視頻產生API參考模型價格

模型名稱

能力支援

輸入模態

輸出說明

wan2.2-s2v-detect

映像檢測

映像

輸出檢測狀態:通過或未通過

wan2.2-s2v

視頻產生

有聲視頻

映像、音頻

解析度檔位:480P、720P

視頻時間長度:不超過20s(跟隨音頻時間長度)

固定規格:

  • 480P:16fps、MP4(H.264編碼)

  • 720P:30fps、MP4(H.264編碼)

輸入樣本(人物映像+音頻)

輸出視頻(對口型)

mix_input_image

輸入音頻:

萬相-圖生動作

讓映像的人蔘考視頻動起來。輸入映像 + 視頻,輸出的視頻保持映像背景不變,參考視頻做動作。

API參考模型價格

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.2-animate-move

有聲視頻、無聲視頻(跟隨輸入視頻而定)

  • 標準模式wan-std:產生速度快,性價比高

  • 專業模式wan-pro:效果更接近真實拍攝

映像、視頻

解析度檔位:720P

視頻時間長度:2s<時間長度<30s

固定規格:

  • 標準模式wan-std:15fps、MP4(H.264編碼)

  • 專業模式wan-pro:25fps、MP4(H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.2-animate-move

有聲視頻、無聲視頻(跟隨輸入視頻而定)

  • 標準模式wan-std:產生速度快,性價比高

  • 專業模式wan-pro:效果更接近真實拍攝

映像、視頻

解析度檔位:720P

視頻時間長度:2s<時間長度<30s

固定規格:

  • 標準模式wan-std:15fps、MP4(H.264編碼)

  • 專業模式wan-pro:25fps、MP4(H.264編碼)

輸入人物映像

輸入參考視頻

輸出視頻(標準模式wan-std

輸出視頻(專業模式wan-pro

move_input_image

萬相-視頻換人

把視頻中的人換成映像中的人。輸入視頻 + 替換映像,輸出視頻保留原視頻背景,實現視頻換臉、視頻換角色等功能。

API參考模型價格

國際

國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.2-animate-mix

有聲視頻、無聲視頻(跟隨輸入視頻而定)

  • 標準模式wan-std:產生速度快,性價比高

  • 專業模式wan-pro:效果更接近真實拍攝

映像、視頻

解析度檔位:720P

視頻時間長度:2s<時間長度<30s

固定規格:

  • 標準模式wan-std:15fps、MP4(H.264編碼)

  • 專業模式wan-pro:25fps、MP4(H.264編碼)

中國內地

中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

模型名稱

能力支援

輸入模態

輸出視頻規格

wan2.2-animate-mix

有聲視頻、無聲視頻(跟隨輸入視頻而定)

  • 標準模式wan-std:產生速度快,性價比高

  • 專業模式wan-pro:效果更接近真實拍攝

映像、視頻

解析度檔位:720P

視頻時間長度:2s<時間長度<30s

固定規格:

  • 標準模式wan-std:15fps、MP4(H.264編碼)

  • 專業模式wan-pro:25fps、MP4(H.264編碼)

輸入視頻

輸入待替換的人物映像

輸出視頻(標準模式wan-std

輸出視頻(專業模式wan-pro

mix_input_image

舞動人像AnimateAnyone

說明

跳舞換人:專為跳舞設計,把視頻中跳舞的人換成映像中的人。輸入映像+視頻,輸出視頻支援兩種方式:1.保留映像背景不變;2.保留視頻背景不變。

映像檢測API參考 | 動作模板產生API參考 | 視頻產生API參考模型價格

模型名稱

能力支援

輸入模態

輸出說明

animate-anyone-detect-gen2

映像檢測

映像

輸出檢測狀態:通過或未通過

animate-anyone-template-gen2

舞蹈視頻模板產生

從跳舞視頻中提取動作模板

視頻

輸出舞蹈動作模板ID

animate-anyone-gen2

視頻產生

無聲視頻

映像、視頻、舞蹈動作模板ID

視頻解析度檔位:720P

視頻時間長度:2s時間長度60s

固定規格:15fps、MP4(H.264編碼)

輸入人物映像

輸入跳舞視頻

輸出視頻(按圖片背景產生)

輸出視頻(按視頻背景產生)

05-9_16

悅動人像EMO

說明
  • 僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

  • 推薦使用萬相-數字人替換悅動人像EMO。前者效果更佳,悅動人像EMO成本較低。

圖生唱演視頻:讓映像中人唱歌、表演。輸入映像 + 音頻,輸出視頻自動為人物匹配口型、面部表情以及頭部動作。

映像檢測API參考視頻產生API參考模型價格

模型名稱

能力支援

輸入模態

輸出說明

emo-detect-v1

映像檢測

映像

輸出檢測狀態:通過或未通過

emo-v1

視頻產生

有聲視頻

映像、音頻

視頻解析度:

  • 1:1畫幅(寬高比):固定為512×512

  • 3:4畫幅(寬高比):固定為512×704

視頻時間長度:不超過60s

固定規格:15fps、MP4(H.264編碼)

輸入樣本(人物肖像圖片+音頻)

輸出視頻(唱歌對口型)

15_原圖

輸入音頻:

靈動人像LivePortrait

說明
  • 僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

  • 推薦使用萬相-數字人替換靈動人像LivePortrait。前者效果更佳,靈動人像LivePortrait成本較低。請注意,當需要長視頻(>20秒),可選擇靈動人像LivePortrait。

圖生播報視頻:讓映像中人播報新聞、講故事。輸入映像 + 音頻,輸出視頻自動為人物匹配口型、面部表情以及頭部動作(輕微擺動)。

映像檢測API參考視頻產生API參考模型價格

模型名稱

能力支援

輸入模態

輸出說明

liveportrait-detect

映像檢測

映像

輸出檢測狀態:通過或未通過

liveportrait

視頻產生

有聲視頻

映像、音頻

視頻解析度:跟隨輸入圖片,上限接近4K(4096x4096)

視頻時間長度:1s<時間長度<180s

視訊框架率:15fps幀率30fps

視頻格式:MP4(H.264編碼)

輸入樣本(人物肖像圖片+音頻)

輸出視頻(語音播報對口型)

Emoji男孩

輸入音頻:

表情包Emoji

說明

僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

根據固定表情包模板製作表情包。輸入映像+指定表情包ID,輸出表情包視頻。

映像檢測API參考視頻產生API參考模型價格

模型名稱

能力支援

輸入模態

輸出說明

emoji-detect-v1

映像檢測

映像

輸出檢測狀態:通過或未通過

emoji-v1

視頻產生

無聲視頻

映像、表情包模板ID

視頻解析度:固定為512x512

視頻時間長度:不超過5s(跟隨模板時間長度)

固定規格:15fps、MP4(H.264編碼)

輸入人物肖像圖片

輸出視頻(“嫌棄”表情包)

image.png

聲動人像VideoRetalk

說明

僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

視頻口型替換:給視頻替換配音口型。輸入視頻+音頻,輸出人物口型與音頻同步的視頻。

API參考模型價格

模型名稱

能力支援

輸入模態

輸出視頻規格

videoretalk

有聲視頻

視頻、音頻

視頻解析度:跟隨輸入視頻,上限接近2K(2048x2048)

視頻時間長度:2s<時間長度<120s

固定規格:30fps、MP4(H.264編碼)

輸入樣本(人物播報視頻+音頻)

輸出視頻(口型替換)

輸入音頻:

視頻風格重繪

說明

僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。

根據固定風格模板進行視頻重繪。輸入視頻+指定重繪風格ID,輸出重繪後的視頻。

API參考模型價格

模型名稱

能力支援

輸入模態

輸出視頻規格

video-style-transform

有聲視頻、無聲視頻

跟隨輸入視頻而定

視頻、重繪風格ID

視頻解析度:跟隨輸入視頻,上限接近4K(4096x4096)

視頻時間長度:不超過30s

視訊框架率:15fps幀率25fps

視頻格式:MP4(H.264編碼)

輸入視頻

輸出視頻(重繪風格選擇“日式漫畫”)