阿里云百炼提供丰富的视频生成模型,覆盖通用创作(文生视频、图生视频、参考生视频、视频编辑)与垂直场景(数字人对口型、图生动作、视频换人、表情包制作等)多样化需求。
模型总览
|
部署模式 查看各模式区别 |
全球 模型推理计算资源全球调度 |
国际 模型推理计算资源全球调度(不含中国内地) |
美国 模型推理计算资源仅限美国境内 |
中国内地 模型推理计算资源仅限中国内地 |
|
接入地域 |
弗吉尼亚 |
新加坡 |
弗吉尼亚 |
北京 |
|
支持的模型 |
模型选型
-
通用视频生成
-
需要将文本转化为视频时,使用万相-文生视频。
-
有一张图,想生成电影感镜头,使用万相-图生视频-基于首帧。
-
有开头和结尾两张图,要控制画面变化过程,使用万相-图生视频-基于首尾帧。
-
有多个视频,想复刻角色的形象和声音表演新剧本,使用万相-参考生视频。
-
-
数字人对口型:让静态照片说话、唱歌或播报。背景保持不变,仅主体面部、头部和肢体运动。
-
当需要长视频(>20秒)且头部动作简单(如新闻播报)时,考虑使用灵动人像LivePortrait。
-
视频动作迁移:保留照片背景,让照片的人参考指定视频动起来,使用万相-图生动作。
-
视频换人:保留视频背景,把视频的人换成指定图像的人,使用万相-视频换人。
-
跳舞换人:把跳舞视频的人换成图像的人。推荐选择万相-图生动作和万相-视频换人(效果佳);若预算有限,可选舞动人像AnimateAnyone(性价比高)。
-
视频口型替换:给已有视频改配音口型,使用声动人像VideoRetalk。
-
表情包制作:制作固定风格模板的表情包,使用表情包Emoji。
-
视频编辑:以下需求均选择万相-通用视频编辑。
-
视频局部编辑:替换视频中的主体或衣服、删除路人等。
-
视频延展:把视频延长,如1秒视频延长为5秒。
-
视频画面扩展:横屏变竖屏、补全边界。
-
多图参考生成:融合背景图像和主体图像生成视频。
-
支持的模型
万相-文生视频
根据文本提示词生成视频。支持输入文本+音频,输出电影级多镜头视频。
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-t2v-preview | 有声视频 声画同步 | 文本、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-t2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-t2v-turbo | 无声视频 | 文本 | 分辨率档位:480P、720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-t2v-plus | 无声视频 | 文本 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v-us | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-t2v-preview | 有声视频 声画同步 | 文本、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-t2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-t2v-turbo | 无声视频 | 文本 | 分辨率档位:480P、720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-t2v-plus | 无声视频 | 文本 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
输入提示词 | 输出视频(wan2.6,多镜头视频) |
Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '. |
万相-图生视频-基于首帧
根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频,输出电影级多镜头视频。
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-flash | 有声视频、无声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-i2v-preview | 有声视频 声画同步 | 文本、图像、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-flash | 无声视频 较2.1模型速度提升50% | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-i2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-i2v-turbo | 无声视频 | 文本、图像 | 分辨率档位:480P、720P 视频时长:3s、4s、5s 固定规格:30fps、MP4 (H.264编码) |
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-us | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-flash | 有声视频、无声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-i2v-preview | 有声视频 声画同步 | 文本、图像、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-flash | 无声视频 较2.1模型速度提升50% | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-turbo | 无声视频 | 文本、图像 | 分辨率档位:480P、720P 视频时长:3s、4s、5s 固定规格:30fps、MP4 (H.264编码) |
输入提示词 | 输入首帧图像和音频 | 输出视频(wan2.6,多镜头视频) |
一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由他的rap构成,没有其他对话或杂音。 |
输入音频: |
万相-图生视频-基于首尾帧
根据给定的首帧图像和尾帧图像,生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频,输出电影级多镜头视频。
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-kf2v-flash | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
wan2.1-kf2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-kf2v-flash | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5秒 固定规格:30fps、MP4(H.264编码) |
wanx2.1-kf2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
输入首帧图像 | 输入尾帧图像 | 输入提示词 | 输出视频 |
|
| 写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 |
万相-参考生视频
指定视频中的角色进行表演。输入视频+文本提示词,输出视频保持角色一致性。
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v | 有声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、视频 | 分辨率档位:720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4(H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v-flash | 有声视频、无声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
wan2.6-r2v | 有声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v-flash | 有声视频、无声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
wan2.6-r2v | 有声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
输入参考视频1(角色为小女孩) | 输入参考视频2(角色为闹钟) | 输入提示词 | 输出视频(多角色对话) |
character1对character2说: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!” |
万相-通用视频编辑
视频编辑通用模型。支持输入文本、图像、视频多模态数据,可执行多种视频生成与编辑任务。
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.1-vace-plus | 无声视频 多图参考、视频重绘、局部编辑、视频延展、视频画面扩展 | 文本、图像、视频 | 分辨率档位:720P 视频时长:不超过5s 固定规格:30fps、MP4(H.264编码) |
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wanx2.1-vace-plus | 无声视频 多图参考、视频重绘、局部编辑、视频延展、视频画面扩展 | 文本、图像、视频 | 分辨率档位:720P 视频时长:不超过5s 固定规格:30fps、MP4(H.264编码) |
功能一:多图参考
输入参考图1(参考主体)
输入参考图2(参考背景)
输入提示词
输出视频


视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当她站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下她与大自然的美妙邂逅。
功能二:视频重绘
输入视频
输入提示词
输出视频
视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味
功能三:视频局部编辑
输入视频
输入掩码图像(白色区域表示编辑区域)
输入提示词
输出视频

视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。
功能四:视频延展
输入首片段视频(1秒)
输入提示词
输出视频(延长后的视频为5秒)
一只戴着墨镜的狗在街道上滑滑板,3D卡通。
功能五:视频画面扩展
输入视频
输入提示词
输出视频
一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团。
万相-数字人
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
数字人对口型:让图像中人或卡通形象说话、唱歌、播报或表演(图生唱演和播报视频)。输入图像 + 音频,输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
wan2.2-s2v-detect | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
wan2.2-s2v | 视频生成 有声视频 | 图像、音频 | 分辨率档位:480P、720P 视频时长:不超过20s(跟随音频时长) 固定规格:
|
输入示例(人物图像+音频) | 输出视频(对口型) |
输入音频: |
万相-图生动作
让图像的人参考视频动起来。输入图像 + 视频,输出的视频保持图像背景不变,参考视频做动作。
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-move | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-move | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
输入人物图像 | 输入参考视频 | 输出视频(标准模式 | 输出视频(专业模式 |
|
万相-视频换人
把视频中的人换成图像中的人。输入视频 + 替换图像,输出视频保留原视频背景,实现视频换脸、视频换角色等功能。
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-mix | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-mix | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
输入视频 | 输入待替换的人物图像 | 输出视频(标准模式 | 输出视频(专业模式 |
|
舞动人像AnimateAnyone
跳舞换人:专为跳舞设计,把视频中跳舞的人换成图像中的人。输入图像+视频,输出视频支持两种方式:1.保留图像背景不变;2.保留视频背景不变。
图像检测API参考 | 动作模板生成API参考 | 视频生成API参考 |模型价格
模型名称 | 能力支持 | 输入模态 | 输出说明 |
animate-anyone-detect-gen2 | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
animate-anyone-template-gen2 | 舞蹈视频模板生成 从跳舞视频中提取动作模板 | 视频 | 输出舞蹈动作模板ID |
animate-anyone-gen2 | 视频生成 无声视频 | 图像、视频、舞蹈动作模板ID | 视频分辨率档位:720P 视频时长:2s≤时长≤60s 固定规格:15fps、MP4(H.264编码) |
输入人物图像 | 输入跳舞视频 | 输出视频(按图片背景生成) | 输出视频(按视频背景生成) |
|
悦动人像EMO
图生唱演视频:让图像中人唱歌、表演。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
emo-detect-v1 | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
emo-v1 | 视频生成 有声视频 | 图像、音频 | 视频分辨率:
视频时长:不超过60s 固定规格:15fps、MP4(H.264编码) |
输入示例(人物肖像图片+音频) | 输出视频(唱歌对口型) |
输入音频: |
灵动人像LivePortrait
图生播报视频:让图像中人播报新闻、讲故事。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作(轻微摆动)。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
liveportrait-detect | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
liveportrait | 视频生成 有声视频 | 图像、音频 | 视频分辨率:跟随输入图片,上限接近4K(4096x4096) 视频时长:1s<时长<180s 视频帧率:15fps≤帧率≤30fps 视频格式:MP4(H.264编码) |
输入示例(人物肖像图片+音频) | 输出视频(语音播报对口型) |
输入音频: |
表情包Emoji
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
根据固定表情包模板制作表情包。输入图像+指定表情包ID,输出表情包视频。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
emoji-detect-v1 | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
emoji-v1 | 视频生成 无声视频 | 图像、表情包模板ID | 视频分辨率:固定为512x512 视频时长:不超过5s(跟随模板时长) 固定规格:15fps、MP4(H.264编码) |
输入人物肖像图片 | 输出视频(“嫌弃”表情包) |
|
声动人像VideoRetalk
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
视频口型替换:给视频替换配音口型。输入视频+音频,输出人物口型与音频同步的视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
videoretalk | 有声视频 | 视频、音频 | 视频分辨率:跟随输入视频,上限接近2K(2048x2048) 视频时长:2s<时长<120s 固定规格:30fps、MP4(H.264编码) |
输入示例(人物播报视频+音频) | 输出视频(口型替换) |
输入音频: |
视频风格重绘
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
根据固定风格模板进行视频重绘。输入视频+指定重绘风格ID,输出重绘后的视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
video-style-transform | 有声视频、无声视频 跟随输入视频而定 | 视频、重绘风格ID | 视频分辨率:跟随输入视频,上限接近4K(4096x4096) 视频时长:不超过30s 视频帧率:15fps≤帧率≤25fps 视频格式:MP4(H.264编码) |
输入视频 | 输出视频(重绘风格选择“日式漫画”) |








