阿里雲百鍊提供豐富的視頻產生模型,覆蓋通用創作(文生視頻、圖生視頻、參考生視頻、視頻編輯)與垂直情境(數字人對口型、圖生動作、視頻換人、表情包製作等)多樣化需求。
模型總覽
|
部署模式 查看各模式區別 |
全球 模型推理計算資源全球調度 |
國際 模型推理計算資源全球調度(不含中國內地) |
美國 模型推理計算資源僅限美國境內 |
中國內地 模型推理計算資源僅限中國內地 |
|
接入地區 |
維吉尼亞 |
新加坡 |
維吉尼亞 |
北京 |
|
支援的模型 |
模型選型
-
通用視頻產生
-
需要將文本轉化為視頻時,使用萬相-文生視頻。
-
有一張圖,想產生電影感鏡頭,使用萬相-圖生視頻-基於首幀。
-
有開頭和結尾兩張圖,要控制畫面變化過程,使用萬相-圖生視頻-基於首尾幀。
-
有多個視頻,想複刻角色的形象和聲音表演新劇本,使用萬相-參考生視頻。
-
-
數字人對口型:讓靜態照片說話、唱歌或播報。背景保持不變,僅主體面部、頭部和肢體運動。
-
當需要長視頻(>20秒)且頭部動作簡單(如新聞播報)時,考慮使用靈動人像LivePortrait。
-
視頻動作遷移:保留照片背景,讓照片的人蔘考指定視頻動起來,使用萬相-圖生動作。
-
視頻換人:保留視頻背景,把視頻的人換成指定映像的人,使用萬相-視頻換人。
-
跳舞換人:把跳舞視頻的人換成映像的人。推薦選擇萬相-圖生動作和萬相-視頻換人(效果佳);若預算有限,可選舞動人像AnimateAnyone(性價比高)。
-
視頻口型替換:給已有視頻改配音口型,使用聲動人像VideoRetalk。
-
表情包製作:製作固定風格模板的表情包,使用表情包Emoji。
-
視頻編輯:以下需求均選擇萬相-通用視頻編輯。
-
視頻局部編輯:替換視頻中的主體或衣服、刪除路人等。
-
視頻延展:把視頻延長,如1秒視頻延長為5秒。
-
視頻畫面擴充:橫屏變豎屏、補全邊界。
-
多圖參考產生:融合背景映像和主體映像產生視頻。
-
支援的模型
萬相-文生視頻
根據文本提示詞產生視頻。支援輸入文本+音頻,輸齣電影級多鏡頭視頻。
全球
在全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-t2v | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、音頻 | 解析度檔位:720P、1080P 視頻時間長度:5s、10s 、15s 固定規格:30fps、MP4 (H.264編碼) |
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-t2v | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、音頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 15s](整數) 固定規格:30fps、MP4 (H.264編碼) |
wan2.5-t2v-preview | 有聲視頻 聲畫同步 | 文本、音頻 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s、10s 固定規格:30fps、MP4 (H.264編碼) |
wan2.2-t2v-plus | 無聲視頻 較2.1模型穩定性與成功率全面提升 | 文本 | 解析度檔位:480P、1080P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wan2.1-t2v-turbo | 無聲視頻 | 文本 | 解析度檔位:480P、720P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wan2.1-t2v-plus | 無聲視頻 | 文本 | 解析度檔位:720P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
美國
在美國部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源僅限於美國境內。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-t2v-us | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、音頻 | 解析度檔位:720P、1080P 視頻時間長度:5s、10s 、15s 固定規格:30fps、MP4 (H.264編碼) |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-t2v | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、音頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 15s](整數) 固定規格:30fps、MP4 (H.264編碼) |
wan2.5-t2v-preview | 有聲視頻 聲畫同步 | 文本、音頻 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s、10s 固定規格:30fps、MP4 (H.264編碼) |
wan2.2-t2v-plus | 無聲視頻 較2.1模型穩定性與成功率全面提升 | 文本 | 解析度檔位:480P、1080P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wanx2.1-t2v-turbo | 無聲視頻 | 文本 | 解析度檔位:480P、720P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wanx2.1-t2v-plus | 無聲視頻 | 文本 | 解析度檔位:720P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
輸入提示詞 | 輸出視頻(wan2.6,多鏡頭視頻) |
Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '. |
萬相-圖生視頻-基於首幀
根據給定的首幀映像產生視頻。支援輸入文本+首幀映像+音頻,輸齣電影級多鏡頭視頻。
全球
在全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-i2v | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、映像、音頻 | 解析度檔位:720P、1080P 視頻時間長度:5s、10s 、15s 固定規格:30fps、MP4 (H.264編碼) |
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-i2v-flash | 有聲視頻、無聲視頻 多鏡頭敘事、聲畫同步 | 文本、映像、音頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 15s](整數) 固定規格:30fps、MP4 (H.264編碼) |
wan2.6-i2v | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、映像、音頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 15s](整數) 固定規格:30fps、MP4 (H.264編碼) |
wan2.5-i2v-preview | 有聲視頻 聲畫同步 | 文本、映像、音頻 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s、10s 固定規格:30fps、MP4 (H.264編碼) |
wan2.2-i2v-flash | 無聲視頻 較2.1模型速度提升50% | 文本、映像 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wan2.2-i2v-plus | 無聲視頻 較2.1模型穩定性與成功率全面提升 | 文本、映像 | 解析度檔位:480P、1080P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wan2.1-i2v-plus | 無聲視頻 | 文本、映像 | 解析度檔位:720P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wan2.1-i2v-turbo | 無聲視頻 | 文本、映像 | 解析度檔位:480P、720P 視頻時間長度:3s、4s、5s 固定規格:30fps、MP4 (H.264編碼) |
美國
在美國部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源僅限於美國境內。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-i2v-us | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、映像、音頻 | 解析度檔位:720P、1080P 視頻時間長度:5s、10s 、15s 固定規格:30fps、MP4 (H.264編碼) |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-i2v-flash | 有聲視頻、無聲視頻 多鏡頭敘事、聲畫同步 | 文本、映像、音頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 15s](整數) 固定規格:30fps、MP4 (H.264編碼) |
wan2.6-i2v | 有聲視頻 多鏡頭敘事、聲畫同步 | 文本、映像、音頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 15s](整數) 固定規格:30fps、MP4 (H.264編碼) |
wan2.5-i2v-preview | 有聲視頻 聲畫同步 | 文本、映像、音頻 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s、10s 固定規格:30fps、MP4 (H.264編碼) |
wan2.2-i2v-flash | 無聲視頻 較2.1模型速度提升50% | 文本、映像 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wan2.2-i2v-plus | 無聲視頻 較2.1模型穩定性與成功率全面提升 | 文本、映像 | 解析度檔位:480P、1080P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wanx2.1-i2v-plus | 無聲視頻 | 文本、映像 | 解析度檔位:720P 視頻時間長度:5s 固定規格:30fps、MP4 (H.264編碼) |
wanx2.1-i2v-turbo | 無聲視頻 | 文本、映像 | 解析度檔位:480P、720P 視頻時間長度:3s、4s、5s 固定規格:30fps、MP4 (H.264編碼) |
輸入提示詞 | 輸入首幀映像和音頻 | 輸出視頻(wan2.6,多鏡頭視頻) |
一幅都市奇幻藝術的情境。一個充滿動感的塗鴉藝術角色。一個由噴漆所畫成的少年,正從一面混凝土牆上活過來。他一邊用極快的語速演唱一首英文rap,一邊擺著一個經典的、充滿活力的饒舌歌手姿勢。情境設定在夜晚一個充滿都市感的鐵路橋下。燈光來自一盞孤零零的街燈,營造齣電影般的氛圍,充滿高能量和驚人的細節。視頻的音頻部分完全由他的rap構成,沒有其他對話或雜音。 |
輸入音頻: |
萬相-圖生視頻-基於首尾幀
根據給定的首幀映像和尾幀映像,產生過渡自然的視頻。支援輸入文本+首幀映像+尾幀映像+音頻,輸齣電影級多鏡頭視頻。
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.2-kf2v-flash | 無聲視頻 較2.1模型穩定性與成功率全面提升 | 文本、映像 | 解析度檔位:480P、720P、1080P 視頻時間長度:5s 固定規格:30fps、MP4(H.264編碼) |
wan2.1-kf2v-plus | 無聲視頻 | 文本、映像 | 解析度檔位:720P 視頻時間長度:5s 固定規格:30fps、MP4(H.264編碼) |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.2-kf2v-flash | 無聲視頻 較2.1模型穩定性與成功率全面提升 | 文本、映像 | 解析度檔位:480P、720P、1080P 視頻時間長度:5秒 固定規格:30fps、MP4(H.264編碼) |
wanx2.1-kf2v-plus | 無聲視頻 | 文本、映像 | 解析度檔位:720P 視頻時間長度:5s 固定規格:30fps、MP4(H.264編碼) |
輸入首幀映像 | 輸入尾幀映像 | 輸入提示詞 | 輸出視頻 |
|
| 寫實風格,一隻黑色小貓好奇地看向天空,鏡頭從平視逐漸上升,最後俯拍小貓好奇的眼神。 |
萬相-參考生視頻
指定視頻中的角色進行表演。輸入視頻+文本提示詞,輸出視頻保持角色一致性。
全球
在全球部署模式下,存取點與資料存放區均位於美國(維吉尼亞)地區,模型推理計算資源在全球範圍內動態調度。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-r2v | 有聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 | 文本、視頻 | 解析度檔位:720P、1080P 視頻時間長度:5s、10s 固定規格:30fps、MP4(H.264編碼) |
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-r2v-flash | 有聲視頻、無聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 產生速度更快,性價比高 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
wan2.6-r2v | 有聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.6-r2v-flash | 有聲視頻、無聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 產生速度更快,性價比高 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
wan2.6-r2v | 有聲視頻 參考多角色生視頻 多鏡頭敘事、聲畫同步 | 文本、映像、視頻 | 解析度檔位:720P、1080P 視頻時間長度:[2s, 10s](整數) 固定規格:30fps、MP4(H.264編碼) |
輸入參考視頻1(角色為小女孩) | 輸入參考視頻2(角色為鬧鐘) | 輸入提示詞 | 輸出視頻(多角色對話) |
character1對character2說: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!” |
萬相-通用視頻編輯
視頻編輯通用模型。支援輸入文本、映像、視頻多模態資料,可執行多種視頻產生與編輯任務。
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.1-vace-plus | 無聲視頻 多圖參考、視頻重繪、局部編輯、視頻延展、視頻畫面擴充 | 文本、映像、視頻 | 解析度檔位:720P 視頻時間長度:不超過5s 固定規格:30fps、MP4(H.264編碼) |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wanx2.1-vace-plus | 無聲視頻 多圖參考、視頻重繪、局部編輯、視頻延展、視頻畫面擴充 | 文本、映像、視頻 | 解析度檔位:720P 視頻時間長度:不超過5s 固定規格:30fps、MP4(H.264編碼) |
功能一:多圖參考
輸入參考圖1(參考主體)
輸入參考圖2(參考背景)
輸入提示詞
輸出視頻


視頻中,一位女孩自晨霧繚繞的古老森林深處款款走出,她步伐輕盈,鏡頭捕捉她每一個靈動瞬間。當她站定,環顧四周蔥鬱林木時,她臉上綻放出驚喜與喜悅交織的笑容。這一幕,定格在了光影交錯的瞬間,記錄下她與大自然的美妙邂逅。
功能二:視頻重繪
輸入視頻
輸入提示詞
輸出視頻
視頻展示了一輛黑色的蒸汽龐克風格汽車,紳士駕駛著,車輛裝飾著齒輪和銅管。背景是蒸汽驅動的糖果工廠和複古元素,畫面複古與趣味
功能三:視頻局部編輯
輸入視頻
輸入遮罩映像(白色地區表示編輯地區)
輸入提示詞
輸出視頻

視頻展示了一家巴黎風情的法式咖啡館,一隻穿著西裝的獅子優雅地品著咖啡。它一手端著咖啡杯,輕輕啜飲,神情愜意。咖啡館裝飾雅緻,柔和的色調與溫暖燈光映照著獅子所在的地區。
功能四:視頻延展
輸入首片段視頻(1秒)
輸入提示詞
輸出視頻(延長後的視頻為5秒)
一隻戴著墨鏡的狗在街道上滑滑板,3D卡通。
功能五:視頻畫面擴充
輸入視頻
輸入提示詞
輸出視頻
一位優雅的女士正在激情演奏小提琴,她身後是一支完整的交響樂團。
萬相-數字人
僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
數字人對口型:讓映像中人或卡通形象說話、唱歌、播報或表演(圖生唱演和播報視頻)。輸入映像 + 音頻,輸出視頻自動為人物或卡通形象匹配口型、面部表情、頭部及身體動作。
模型名稱 | 能力支援 | 輸入模態 | 輸出說明 |
wan2.2-s2v-detect | 映像檢測 | 映像 | 輸出檢測狀態:通過或未通過 |
wan2.2-s2v | 視頻產生 有聲視頻 | 映像、音頻 | 解析度檔位:480P、720P 視頻時間長度:不超過20s(跟隨音頻時間長度) 固定規格:
|
輸入樣本(人物映像+音頻) | 輸出視頻(對口型) |
輸入音頻: |
萬相-圖生動作
讓映像的人蔘考視頻動起來。輸入映像 + 視頻,輸出的視頻保持映像背景不變,參考視頻做動作。
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.2-animate-move | 有聲視頻、無聲視頻(跟隨輸入視頻而定)
| 映像、視頻 | 解析度檔位:720P 視頻時間長度:2s<時間長度<30s 固定規格:
|
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.2-animate-move | 有聲視頻、無聲視頻(跟隨輸入視頻而定)
| 映像、視頻 | 解析度檔位:720P 視頻時間長度:2s<時間長度<30s 固定規格:
|
輸入人物映像 | 輸入參考視頻 | 輸出視頻(標準模式 | 輸出視頻(專業模式 |
|
萬相-視頻換人
把視頻中的人換成映像中的人。輸入視頻 + 替換映像,輸出視頻保留原視頻背景,實現視頻換臉、視頻換角色等功能。
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.2-animate-mix | 有聲視頻、無聲視頻(跟隨輸入視頻而定)
| 映像、視頻 | 解析度檔位:720P 視頻時間長度:2s<時間長度<30s 固定規格:
|
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
wan2.2-animate-mix | 有聲視頻、無聲視頻(跟隨輸入視頻而定)
| 映像、視頻 | 解析度檔位:720P 視頻時間長度:2s<時間長度<30s 固定規格:
|
輸入視頻 | 輸入待替換的人物映像 | 輸出視頻(標準模式 | 輸出視頻(專業模式 |
|
舞動人像AnimateAnyone
跳舞換人:專為跳舞設計,把視頻中跳舞的人換成映像中的人。輸入映像+視頻,輸出視頻支援兩種方式:1.保留映像背景不變;2.保留視頻背景不變。
映像檢測API參考 | 動作模板產生API參考 | 視頻產生API參考 |模型價格
模型名稱 | 能力支援 | 輸入模態 | 輸出說明 |
animate-anyone-detect-gen2 | 映像檢測 | 映像 | 輸出檢測狀態:通過或未通過 |
animate-anyone-template-gen2 | 舞蹈視頻模板產生 從跳舞視頻中提取動作模板 | 視頻 | 輸出舞蹈動作模板ID |
animate-anyone-gen2 | 視頻產生 無聲視頻 | 映像、視頻、舞蹈動作模板ID | 視頻解析度檔位:720P 視頻時間長度:2s≤時間長度≤60s 固定規格:15fps、MP4(H.264編碼) |
輸入人物映像 | 輸入跳舞視頻 | 輸出視頻(按圖片背景產生) | 輸出視頻(按視頻背景產生) |
|
悅動人像EMO
圖生唱演視頻:讓映像中人唱歌、表演。輸入映像 + 音頻,輸出視頻自動為人物匹配口型、面部表情以及頭部動作。
模型名稱 | 能力支援 | 輸入模態 | 輸出說明 |
emo-detect-v1 | 映像檢測 | 映像 | 輸出檢測狀態:通過或未通過 |
emo-v1 | 視頻產生 有聲視頻 | 映像、音頻 | 視頻解析度:
視頻時間長度:不超過60s 固定規格:15fps、MP4(H.264編碼) |
輸入樣本(人物肖像圖片+音頻) | 輸出視頻(唱歌對口型) |
輸入音頻: |
靈動人像LivePortrait
圖生播報視頻:讓映像中人播報新聞、講故事。輸入映像 + 音頻,輸出視頻自動為人物匹配口型、面部表情以及頭部動作(輕微擺動)。
模型名稱 | 能力支援 | 輸入模態 | 輸出說明 |
liveportrait-detect | 映像檢測 | 映像 | 輸出檢測狀態:通過或未通過 |
liveportrait | 視頻產生 有聲視頻 | 映像、音頻 | 視頻解析度:跟隨輸入圖片,上限接近4K(4096x4096) 視頻時間長度:1s<時間長度<180s 視訊框架率:15fps≤幀率≤30fps 視頻格式:MP4(H.264編碼) |
輸入樣本(人物肖像圖片+音頻) | 輸出視頻(語音播報對口型) |
輸入音頻: |
表情包Emoji
僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
根據固定表情包模板製作表情包。輸入映像+指定表情包ID,輸出表情包視頻。
模型名稱 | 能力支援 | 輸入模態 | 輸出說明 |
emoji-detect-v1 | 映像檢測 | 映像 | 輸出檢測狀態:通過或未通過 |
emoji-v1 | 視頻產生 無聲視頻 | 映像、表情包模板ID | 視頻解析度:固定為512x512 視頻時間長度:不超過5s(跟隨模板時間長度) 固定規格:15fps、MP4(H.264編碼) |
輸入人物肖像圖片 | 輸出視頻(“嫌棄”表情包) |
|
聲動人像VideoRetalk
僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
視頻口型替換:給視頻替換配音口型。輸入視頻+音頻,輸出人物口型與音頻同步的視頻。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
videoretalk | 有聲視頻 | 視頻、音頻 | 視頻解析度:跟隨輸入視頻,上限接近2K(2048x2048) 視頻時間長度:2s<時間長度<120s 固定規格:30fps、MP4(H.264編碼) |
輸入樣本(人物播報視頻+音頻) | 輸出視頻(口型替換) |
輸入音頻: |
視頻風格重繪
僅支援中國內地部署模式。存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
根據固定風格模板進行視頻重繪。輸入視頻+指定重繪風格ID,輸出重繪後的視頻。
模型名稱 | 能力支援 | 輸入模態 | 輸出視頻規格 |
video-style-transform | 有聲視頻、無聲視頻 跟隨輸入視頻而定 | 視頻、重繪風格ID | 視頻解析度:跟隨輸入視頻,上限接近4K(4096x4096) 視頻時間長度:不超過30s 視訊框架率:15fps≤幀率≤25fps 視頻格式:MP4(H.264編碼) |
輸入視頻 | 輸出視頻(重繪風格選擇“日式漫畫”) |








