全部产品
Search
文档中心

大模型服务平台百炼:视频生成

更新时间:Feb 12, 2026

阿里云百炼提供丰富的视频生成模型,覆盖通用创作(文生视频、图生视频、参考生视频、视频编辑)与垂直场景(数字人对口型、图生动作、视频换人、表情包制作等)多样化需求。

模型总览

部署模式

查看各模式区别

全球

模型推理计算资源全球调度

国际

模型推理计算资源全球调度(不含中国内地)

美国

模型推理计算资源仅限美国境内

中国内地

模型推理计算资源仅限中国内地

接入地域

弗吉尼亚

新加坡

弗吉尼亚

北京

支持的模型

万相-文生视频

万相-图生视频-基于首帧

万相-参考生视频

万相-文生视频

万相-图生视频-基于首帧

万相-图生视频-基于首尾帧

万相-参考生视频

万相-通用视频编辑

万相-图生动作

万相-视频换人

万相-文生视频

万相-图生视频-基于首帧

万相-文生视频

万相-图生视频-基于首帧

万相-图生视频-基于首尾帧

万相-参考生视频

万相-通用视频编辑

万相-数字人

万相-图生动作

万相-视频换人

舞动人像AnimateAnyone

悦动人像EMO

灵动人像LivePortrait

表情包Emoji

声动人像VideoRetalk

视频风格重绘

模型选型

支持的模型

万相-文生视频

根据文本提示词生成视频。支持输入文本+音频,输出电影级多镜头视频。

API参考模型价格|在线体验:新加坡弗吉尼亚北京

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-t2v-preview 推荐

有声视频

声画同步

文本、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-t2v-plus

无声视频

较2.1模型稳定性与成功率全面提升

文本

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-t2v-turbo

无声视频

文本

分辨率档位:480P、720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-t2v-plus

无声视频

文本

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-t2v-preview 推荐

有声视频

声画同步

文本、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-t2v-plus

无声视频

较2.1模型稳定性与成功率全面提升

文本

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-t2v-turbo

无声视频

文本

分辨率档位:480P、720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-t2v-plus

无声视频

文本

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

输入提示词

输出视频(wan2.6,多镜头视频)

Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '.

万相-图生视频-基于首帧

根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频,输出电影级多镜头视频。

API参考模型价格|在线体验:新加坡弗吉尼亚北京

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-flash 推荐

有声视频、无声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-i2v-preview

有声视频

声画同步

文本、图像、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-flash

无声视频

较2.1模型速度提升50%

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-plus

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-i2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-i2v-turbo

无声视频

文本、图像

分辨率档位:480P、720P

视频时长:3s、4s、5s

固定规格:30fps、MP4 (H.264编码) 

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-flash 推荐

有声视频、无声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-i2v-preview

有声视频

声画同步

文本、图像、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-flash

无声视频

较2.1模型速度提升50%

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-plus

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-i2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-i2v-turbo

无声视频

文本、图像

分辨率档位:480P、720P

视频时长:3s、4s、5s

固定规格:30fps、MP4 (H.264编码) 

输入提示词

输入首帧图像和音频

输出视频(wan2.6,多镜头视频)

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由他的rap构成,没有其他对话或杂音。

rap-转换自-png

输入音频

万相-图生视频-基于首尾帧

根据给定的首帧图像和尾帧图像,生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频,输出电影级多镜头视频。

API参考模型价格在线体验

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4(H.264编码)

wan2.1-kf2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4(H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5秒

固定规格:30fps、MP4(H.264编码)

wanx2.1-kf2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4(H.264编码)

输入首帧图像

输入尾帧图像

输入提示词

输出视频

first_frame

last_frame

写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。

万相-参考生视频

指定视频中的角色进行表演。输入视频+文本提示词,输出视频保持角色一致性。

API参考模型价格

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v 推荐

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、视频

分辨率档位:720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

输入参考视频1(角色为小女孩)

输入参考视频2(角色为闹钟)

输入提示词

输出视频(多角色对话)

character1对character2说: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!”

万相-通用视频编辑

视频编辑通用模型。支持输入文本、图像、视频多模态数据,可执行多种视频生成与编辑任务。

API参考模型价格

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位:720P

视频时长:不超过5s

固定规格:30fps、MP4(H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wanx2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位:720P

视频时长:不超过5s

固定规格:30fps、MP4(H.264编码)

  • 功能一:多图参考

    输入参考图1(参考主体)

    输入参考图2(参考背景)

    输入提示词

    输出视频

    image

    image

    视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当她站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下她与大自然的美妙邂逅。

  • 功能二:视频重绘

    输入视频

    输入提示词

    输出视频

    视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味

  • 功能三:视频局部编辑

    输入视频

    输入掩码图像(白色区域表示编辑区域)

    输入提示词

    输出视频

    mask

    视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。

  • 功能四:视频延展

    输入首片段视频(1秒)

    输入提示词

    输出视频(延长后的视频为5秒)

    一只戴着墨镜的狗在街道上滑滑板,3D卡通。

  • 功能五:视频画面扩展

    输入视频

    输入提示词

    输出视频

    一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团

万相-数字人

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

数字人对口型:让图像中人或卡通形象说话、唱歌、播报或表演(图生唱演和播报视频)。输入图像 + 音频,输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

wan2.2-s2v-detect

图像检测

图像

输出检测状态:通过或未通过

wan2.2-s2v

视频生成

有声视频

图像、音频

分辨率档位:480P、720P

视频时长:不超过20s(跟随音频时长)

固定规格:

  • 480P:16fps、MP4(H.264编码)

  • 720P:30fps、MP4(H.264编码)

输入示例(人物图像+音频)

输出视频(对口型)

mix_input_image

输入音频:

万相-图生动作

让图像的人参考视频动起来。输入图像 + 视频,输出的视频保持图像背景不变,参考视频做动作。

API参考模型价格

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

输入人物图像

输入参考视频

输出视频(标准模式wan-std

输出视频(专业模式wan-pro

move_input_image

万相-视频换人

把视频中的人换成图像中的人。输入视频 + 替换图像,输出视频保留原视频背景,实现视频换脸、视频换角色等功能。

API参考模型价格

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

输入视频

输入待替换的人物图像

输出视频(标准模式wan-std

输出视频(专业模式wan-pro

mix_input_image

舞动人像AnimateAnyone

说明

跳舞换人:专为跳舞设计,把视频中跳舞的人换成图像中的人。输入图像+视频,输出视频支持两种方式:1.保留图像背景不变;2.保留视频背景不变。

图像检测API参考 | 动作模板生成API参考 | 视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

animate-anyone-detect-gen2

图像检测

图像

输出检测状态:通过或未通过

animate-anyone-template-gen2

舞蹈视频模板生成

从跳舞视频中提取动作模板

视频

输出舞蹈动作模板ID

animate-anyone-gen2

视频生成

无声视频

图像、视频、舞蹈动作模板ID

视频分辨率档位:720P

视频时长:2s时长60s

固定规格:15fps、MP4(H.264编码)

输入人物图像

输入跳舞视频

输出视频(按图片背景生成)

输出视频(按视频背景生成)

05-9_16

悦动人像EMO

说明
  • 仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

  • 推荐使用万相-数字人替换悦动人像EMO。前者效果更佳,悦动人像EMO成本较低。

图生唱演视频:让图像中人唱歌、表演。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

emo-detect-v1

图像检测

图像

输出检测状态:通过或未通过

emo-v1

视频生成

有声视频

图像、音频

视频分辨率:

  • 1:1画幅(宽高比):固定为512×512

  • 3:4画幅(宽高比):固定为512×704

视频时长:不超过60s

固定规格:15fps、MP4(H.264编码)

输入示例(人物肖像图片+音频)

输出视频(唱歌对口型)

15_原图

输入音频:

灵动人像LivePortrait

说明
  • 仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

  • 推荐使用万相-数字人替换灵动人像LivePortrait。前者效果更佳,灵动人像LivePortrait成本较低。请注意,当需要长视频(>20秒),可选择灵动人像LivePortrait。

图生播报视频:让图像中人播报新闻、讲故事。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作(轻微摆动)。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

liveportrait-detect

图像检测

图像

输出检测状态:通过或未通过

liveportrait

视频生成

有声视频

图像、音频

视频分辨率:跟随输入图片,上限接近4K(4096x4096)

视频时长:1s<时长<180s

视频帧率:15fps帧率30fps

视频格式:MP4(H.264编码)

输入示例(人物肖像图片+音频)

输出视频(语音播报对口型)

Emoji男孩

输入音频:

表情包Emoji

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

根据固定表情包模板制作表情包。输入图像+指定表情包ID,输出表情包视频。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

emoji-detect-v1

图像检测

图像

输出检测状态:通过或未通过

emoji-v1

视频生成

无声视频

图像、表情包模板ID

视频分辨率:固定为512x512

视频时长:不超过5s(跟随模板时长)

固定规格:15fps、MP4(H.264编码)

输入人物肖像图片

输出视频(“嫌弃”表情包)

image.png

声动人像VideoRetalk

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

视频口型替换:给视频替换配音口型。输入视频+音频,输出人物口型与音频同步的视频。

API参考模型价格

模型名称

能力支持

输入模态

输出视频规格

videoretalk

有声视频

视频、音频

视频分辨率:跟随输入视频,上限接近2K(2048x2048)

视频时长:2s<时长<120s

固定规格:30fps、MP4(H.264编码)

输入示例(人物播报视频+音频)

输出视频(口型替换)

输入音频:

视频风格重绘

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

根据固定风格模板进行视频重绘。输入视频+指定重绘风格ID,输出重绘后的视频。

API参考模型价格

模型名称

能力支持

输入模态

输出视频规格

video-style-transform

有声视频、无声视频

跟随输入视频而定

视频、重绘风格ID

视频分辨率:跟随输入视频,上限接近4K(4096x4096)

视频时长:不超过30s

视频帧率:15fps帧率25fps

视频格式:MP4(H.264编码)

输入视频

输出视频(重绘风格选择“日式漫画”)