视频生成 - - 阿里云

通用视频生成
- 需要将文本转化为视频时，使用万相-文生视频。
- 有一张图，想生成电影感镜头，使用万相-图生视频-基于首帧。
- 有开头和结尾两张图，要控制画面变化过程，使用万相-图生视频-基于首尾帧。
- 有多个视频，想复刻角色的形象和声音表演新剧本，使用万相-参考生视频。
数字人对口型：让静态照片说话、唱歌或播报。背景保持不变，仅主体面部、头部和肢体运动。
- 首选万相-数字人，效果自然，含表情与头部动作（替代悦动人像EMO）。
- 当需要长视频（>20秒）且头部动作简单（如新闻播报）时，考虑使用灵动人像LivePortrait。
视频动作迁移：保留照片背景，让照片的人参考指定视频动起来，使用万相-图生动作。
视频换人：保留视频背景，把视频的人换成指定图像的人，使用万相-视频换人。
跳舞换人：把跳舞视频的人换成图像的人。推荐选择万相-图生动作和万相-视频换人（效果佳）；若预算有限，可选舞动人像AnimateAnyone（性价比高）。
视频口型替换：给已有视频改配音口型，使用声动人像VideoRetalk。
表情包制作：制作固定风格模板的表情包，使用表情包Emoji。
视频重绘：固定风格模板使用视频风格重绘，通过提示词自由描述风格使用万相-视频编辑。
视频编辑：以下需求均选择万相-视频编辑。
- 视频局部编辑：替换视频中的主体或衣服、删除路人等。
- 视频延展：把视频延长，如1秒视频延长为5秒。
- 视频画面扩展：横屏变竖屏、补全边界。
- 多图参考生成：融合背景图像和主体图像生成视频。

支持的模型

万相-文生视频

根据文本提示词生成视频。支持输入文本+音频，输出电影级多镜头视频。

API参考｜模型价格｜在线体验：新加坡、弗吉尼亚、北京

全球

服务部署范围为全球时，模型推理计算资源在全球范围内动态调度；静态数据存储于您所选的地域。该部署范围支持的地域：美国（弗吉尼亚）、德国（法兰克福）。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

国际

服务部署范围为国际时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于您所选的地域。该部署范围支持的地域：新加坡。

模型名称	能力支持	输入模态	输出视频规格
wan2.7-t2v `推荐`	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-t2v	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-t2v-preview	有声视频声画同步	文本、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-t2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-t2v-turbo	无声视频	文本	分辨率档位：480P、720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-t2v-plus	无声视频	文本	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)

美国

服务部署范围为美国时，模型推理计算资源仅限于美国境内；静态数据存储于您所选的地域。该部署范围支持的地域：美国（弗吉尼亚）。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称	能力支持	输入模态	输出视频规格
wan2.7-t2v `推荐`	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-t2v	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-t2v-preview	有声视频声画同步	文本、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-t2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-t2v-turbo	无声视频	文本	分辨率档位：480P、720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-t2v-plus	无声视频	文本	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)

输入提示词

输出视频（wan2.6，多镜头视频）

Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '.

万相-图生视频

万相-图生视频模型全新升级，支持多模态输入（文本/图像/音频/视频），可完成首帧生视频、首尾帧生视频、视频续写三大任务。

API参考｜模型价格｜Prompt指南

国际

模型名称

能力支持

输入模态

输出视频规格

wan2.7-i2v 推荐

有声视频

首帧生视频、首尾帧生视频、视频续写、视频续写+尾帧控制

多镜头叙事、声画同步

文本、图像、音频、视频

分辨率档位：720P、1080P

视频时长：[2s, 15s]（整数）

固定规格：30fps、MP4 (H.264编码)

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称

能力支持

输入模态

输出视频规格

wan2.7-i2v 推荐

有声视频

首帧生视频、首尾帧生视频、视频续写、视频续写+尾帧控制

多镜头叙事、声画同步

文本、图像、音频、视频

分辨率档位：720P、1080P

视频时长：[2s, 15s]（整数）

固定规格：30fps、MP4 (H.264编码)

万相-图生视频-基于首帧

根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频，输出电影级多镜头视频。

API参考｜模型价格｜在线体验：新加坡、弗吉尼亚、北京

全球

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

国际

模型名称	能力支持	输入模态	输出视频规格
wan2.6-i2v-flash `推荐`	有声视频、无声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-i2v `推荐`	有声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-i2v-preview	有声视频声画同步	文本、图像、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-flash	无声视频较2.1模型速度提升50%	文本、图像	分辨率档位：480P、720P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本、图像	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-i2v-plus	无声视频	文本、图像	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-i2v-turbo	无声视频	文本、图像	分辨率档位：480P、720P 视频时长：3s、4s、5s 固定规格：30fps、MP4 (H.264编码)

美国

服务部署范围为美国时，模型推理计算资源仅限于美国境内；静态数据存储于您所选的地域。该部署范围支持的地域：美国（弗吉尼亚）。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-i2v-flash `推荐`	有声视频、无声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-i2v `推荐`	有声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-i2v-preview	有声视频声画同步	文本、图像、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-flash	无声视频较2.1模型速度提升50%	文本、图像	分辨率档位：480P、720P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本、图像	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-plus	无声视频	文本、图像	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-turbo	无声视频	文本、图像	分辨率档位：480P、720P 视频时长：3s、4s、5s 固定规格：30fps、MP4 (H.264编码)

输入提示词

输入首帧图像和音频

输出视频（wan2.6，多镜头视频）

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年，正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap，一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯，营造出电影般的氛围，充满高能量和惊人的细节。视频的音频部分完全由他的rap构成，没有其他对话或杂音。

rap-转换自-png

输入音频：

万相-图生视频-基于首尾帧

根据给定的首帧图像和尾帧图像，生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频，输出电影级多镜头视频。

API参考｜模型价格｜在线体验

国际

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位：480P、720P、1080P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

wan2.1-kf2v-plus

无声视频

文本、图像

分辨率档位：720P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位：480P、720P、1080P

视频时长：5秒

固定规格：30fps、MP4（H.264编码）

wanx2.1-kf2v-plus

无声视频

文本、图像

分辨率档位：720P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

输入首帧图像	输入尾帧图像	输入提示词	输出视频
		写实风格，一只黑色小猫好奇地看向天空，镜头从平视逐渐上升，最后俯拍小猫好奇的眼神。

万相-参考生视频

指定视频中的角色进行表演。输入视频+文本提示词，输出视频保持角色一致性。

API参考｜模型价格

全球

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v 推荐

有声视频

单角色/多角色生视频

多镜头叙事、声画同步

文本、视频

分辨率档位：720P、1080P

视频时长：5s、10s

固定规格：30fps、MP4（H.264编码）

国际

模型名称	能力支持	输入模态	输出视频规格
wan2.7-r2v `推荐`	有声视频多主体参考生视频，支持为主体配置音色	文本、图像、视频、音频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-r2v-flash	有声视频、无声视频单角色/多角色生视频多镜头叙事、声画同步生成速度更快，性价比高	文本、图像、视频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4（H.264编码）
wan2.6-r2v	有声视频单角色/多角色生视频多镜头叙事、声画同步	文本、图像、视频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4（H.264编码）

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称	能力支持	输入模态	输出视频规格
wan2.7-r2v `推荐`	有声视频多主体参考生视频，支持为主体配置音色	文本、图像、视频、音频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-r2v-flash	有声视频、无声视频单角色/多角色生视频多镜头叙事、声画同步生成速度更快，性价比高	文本、图像、视频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4（H.264编码）
wan2.6-r2v	有声视频单角色/多角色生视频多镜头叙事、声画同步	文本、图像、视频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4（H.264编码）

输入参考视频1（角色为小女孩）	输入参考视频2（角色为闹钟）	输入提示词	输出视频（多角色对话）
		character1对character2说: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!”

万相-视频编辑

视频编辑模型。支持输入文本、图像、视频多模态数据，可执行多种视频生成与编辑任务。

视频编辑2.7 API参考｜视频编辑2.1 API参考｜模型价格

国际

模型名称

能力支持

输入模态

输出视频规格

wan2.7-videoedit 推荐

有声视频、无声视频（跟随输入视频）

指令编辑，视频迁移

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4 (H.264编码)

wan2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位：720P

视频时长：不超过5s

固定规格：30fps、MP4（H.264编码）

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称

能力支持

输入模态

输出视频规格

wan2.7-videoedit 推荐

有声视频、无声视频（跟随输入视频）

指令编辑，视频迁移

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4 (H.264编码)

wanx2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位：720P

视频时长：不超过5s

固定规格：30fps、MP4（H.264编码）

视频编辑2.1

功能一：多图参考

输入参考图1（参考主体）	输入参考图2（参考背景）	输入提示词	输出视频
		视频中，一位女孩自晨雾缭绕的古老森林深处款款走出，她步伐轻盈，镜头捕捉她每一个灵动瞬间。当她站定，环顾四周葱郁林木时，她脸上绽放出惊喜与喜悦交织的笑容。这一幕，定格在了光影交错的瞬间，记录下她与大自然的美妙邂逅。

功能二：视频重绘

输入视频	输入提示词	输出视频
	视频展示了一辆黑色的蒸汽朋克风格汽车，绅士驾驶着，车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素，画面复古与趣味

功能三：视频局部编辑

输入视频	输入掩码图像（白色区域表示编辑区域）	输入提示词	输出视频
		视频展示了一家巴黎风情的法式咖啡馆，一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯，轻轻啜饮，神情惬意。咖啡馆装饰雅致，柔和的色调与温暖灯光映照着狮子所在的区域。

功能四：视频延展
输入首片段视频（1秒）
输入提示词
输出视频（延长后的视频为5秒）
一只戴着墨镜的狗在街道上滑滑板，3D卡通。
功能五：视频画面扩展
输入视频
输入提示词
输出视频
一位优雅的女士正在激情演奏小提琴，她身后是一支完整的交响乐团。

万相-数字人

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。

数字人对口型：让图像中人或卡通形象说话、唱歌、播报或表演（图生唱演和播报视频）。输入图像 + 音频，输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。

图像检测API参考｜视频生成API参考｜模型价格

模型名称

能力支持

输入模态

输出说明

wan2.2-s2v-detect

图像检测

图像

输出检测状态：通过或未通过

wan2.2-s2v

视频生成

有声视频

图像、音频

分辨率档位：480P、720P

视频时长：不超过20s（跟随音频时长）

固定规格：

480P：16fps、MP4（H.264编码）
720P：30fps、MP4（H.264编码）

输入示例（人物图像+音频）

输出视频（对口型）

mix_input_image

输入音频：

万相-图生动作

让图像的人参考视频动起来。输入图像 + 视频，输出的视频保持图像背景不变，参考视频做动作。

API参考｜模型价格

国际

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

输入人物图像	输入参考视频	输出视频（标准模式`wan-std`）	输出视频（专业模式`wan-pro`）

万相-视频换人

把视频中的人换成图像中的人。输入视频 + 替换图像，输出视频保留原视频背景，实现视频换脸、视频换角色等功能。

API参考｜模型价格

国际

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

中国内地

服务部署范围为中国内地时，模型推理计算资源仅限于中国内地；静态数据存储于您所选的地域。该部署范围支持的地域：华北2（北京）。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

输入视频	输入待替换的人物图像	输出视频（标准模式`wan-std`）	输出视频（专业模式`wan-pro`）

舞动人像AnimateAnyone

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。
推荐使用万相-图生动作和万相-视频换人替换舞动人像AnimateAnyone。前两者效果更佳，舞动人像 AnimateAnyone成本较低。

跳舞换人：专为跳舞设计，把视频中跳舞的人换成图像中的人。输入图像+视频，输出视频支持两种方式：1.保留图像背景不变；2.保留视频背景不变。

图像检测API参考 | 动作模板生成API参考 | 视频生成API参考｜模型价格

模型名称	能力支持	输入模态	输出说明
animate-anyone-detect-gen2	图像检测	图像	输出检测状态：通过或未通过
animate-anyone-template-gen2	舞蹈视频模板生成从跳舞视频中提取动作模板	视频	输出舞蹈动作模板ID
animate-anyone-gen2	视频生成无声视频	图像、视频、舞蹈动作模板ID	视频分辨率档位：720P 视频时长：2s≤时长≤60s 固定规格：15fps、MP4（H.264编码）

输入人物图像	输入跳舞视频	输出视频（按图片背景生成）	输出视频（按视频背景生成）

悦动人像EMO

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。
推荐使用万相-数字人替换悦动人像EMO。前者效果更佳，悦动人像EMO成本较低。

图生唱演视频：让图像中人唱歌、表演。输入图像 + 音频，输出视频自动为人物匹配口型、面部表情以及头部动作。

图像检测API参考 | 视频生成API参考｜模型价格

模型名称

能力支持

输入模态

输出说明

emo-detect-v1

图像检测

图像

输出检测状态：通过或未通过

emo-v1

视频生成

有声视频

图像、音频

视频分辨率：

1:1画幅（宽高比）：固定为512×512
3:4画幅（宽高比）：固定为512×704

视频时长：不超过60s

固定规格：15fps、MP4（H.264编码）

输入示例（人物肖像图片+音频）

输出视频（唱歌对口型）

15_原图

输入音频：

灵动人像LivePortrait

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。
推荐使用万相-数字人替换灵动人像LivePortrait。前者效果更佳，灵动人像LivePortrait成本较低。请注意，当需要长视频（>20秒），可选择灵动人像LivePortrait。

图生播报视频：让图像中人播报新闻、讲故事。输入图像 + 音频，输出视频自动为人物匹配口型、面部表情以及头部动作（轻微摆动）。

图像检测API参考 | 视频生成API参考｜模型价格

模型名称

能力支持

输入模态

输出说明

liveportrait-detect

图像检测

图像

输出检测状态：通过或未通过

liveportrait

视频生成

有声视频

图像、音频

视频分辨率：跟随输入图片，上限接近4K（4096x4096）

视频时长：1s＜时长＜180s

视频帧率：15fps≤帧率≤30fps

视频格式：MP4（H.264编码）

输入示例（人物肖像图片+音频）

输出视频（语音播报对口型）

Emoji男孩

输入音频：

表情包Emoji

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。

根据固定表情包模板制作表情包。输入图像+指定表情包ID，输出表情包视频。

图像检测API参考 | 视频生成API参考 | 模型价格

模型名称

能力支持

输入模态

输出说明

emoji-detect-v1

图像检测

图像

输出检测状态：通过或未通过

emoji-v1

视频生成

无声视频

图像、表情包模板ID

视频分辨率：固定为512x512

视频时长：不超过5s（跟随模板时长）

固定规格：15fps、MP4（H.264编码）

输入人物肖像图片	输出视频（“嫌弃”表情包）

声动人像VideoRetalk

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。

视频口型替换：给视频替换配音口型。输入视频+音频，输出人物口型与音频同步的视频。

API参考 | 模型价格

模型名称

能力支持

输入模态

输出视频规格

videoretalk

有声视频

视频、音频

视频分辨率：跟随输入视频，上限接近2K（2048x2048）

视频时长：2s＜时长＜120s

视频帧率：15fps≤帧率≤60fps

视频格式：MP4（H.264编码）

输入示例（人物播报视频+音频）	输出视频（口型替换）
输入音频：

视频风格重绘

说明

服务部署范围仅支持中国内地。数据存储位于北京接入地域，模型推理计算资源仅限于中国内地。

根据固定风格模板进行视频重绘。输入视频+指定重绘风格ID，输出重绘后的视频。

API参考 | 模型价格

模型名称

能力支持

输入模态

输出视频规格

video-style-transform

有声视频、无声视频

跟随输入视频而定

视频、重绘风格ID

视频分辨率：跟随输入视频，上限接近4K（4096x4096）

视频时长：不超过30s

视频帧率：15fps≤帧率≤25fps

视频格式：MP4（H.264编码）

输入视频	输出视频（重绘风格选择“日式漫画”）

输入首片段视频（1秒）	输入提示词	输出视频（延长后的视频为5秒）
	一只戴着墨镜的狗在街道上滑滑板，3D卡通。