阿里云百炼提供多样化的视频模型选择,涵盖文生视频、图生视频(通用/舞蹈/唱演/播报等)、视频编辑(通用/视频风格重绘/视频口型替换)等应用场景。
模型总览
类别 | 说明 |
文生视频 |
|
图生视频 | |
视频编辑 |
|
支持的模型
文生视频
通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考|在线体验
国际(新加坡)
模型名称 | 说明 | 单价 | 免费额度(领取) 有效期:阿里云百炼开通后90天内 |
wan2.6-t2v | 万相2.6。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。 | 720P:$0.10/秒 1080P:$0.15/秒 | 50秒 |
wan2.5-t2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:$0.05/秒 720P:$0.10/秒 1080P:$0.15/秒 | 50秒 |
wan2.2-t2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:$0.02/秒 1080P:$0.10/秒 | 50秒 |
wan2.1-t2v-turbo | 万相2.1极速版。生成速度快,表现均衡。 | $0.036/秒 | 200秒 |
wan2.1-t2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | $0.10/秒 | 200秒 |
中国大陆(北京)
模型名称 | 说明 | 单价 | 免费额度 |
wan2.6-t2v | 万相2.6。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。 | 720P:$0.086012/秒 1080P:0.143353/秒 | 无免费额度 |
wan2.5-t2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:$0.043006/秒 720P:$0.086012/秒 1080P:$0.143353/秒 | 无免费额度 |
wan2.2-t2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:$0.02007/秒 1080P:$0.100347/秒 | 无免费额度 |
wanx2.1-t2v-turbo | 生成速度更快,表现均衡。 | $0.034405/秒 | 无免费额度 |
wanx2.1-t2v-plus | 生成细节更丰富,画面更具质感。 | $0.100347/秒 | 无免费额度 |
输入示例 | 输出视频(wan2.5) |
输入提示词:Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '. 输入音频: |
图生视频-基于首帧
通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考|在线体验
国际(新加坡)
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后90天内 |
wan2.6-i2v | 万相2.6。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。 | 720P:$0.10/秒 1080P:$0.15/秒 | 50秒 |
wan2.5-i2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:$0.05/秒 720P:$0.10/秒 1080P:$0.15/秒 | 50秒 |
wan2.2-i2v-flash | 万相2.2极速版。极致生成速度,在画面细节表现、运动稳定性方面均有显著提升。 | 480P:$0.015/秒 720P:$0.036/秒 | 50秒 |
wan2.2-i2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:$0.02/秒 1080P:$0.10/秒 | 50秒 |
wan2.1-i2v-turbo | 万相2.1极速版。生成速度快,表现均衡。 | $0.036/秒 | 200秒 |
wan2.1-i2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | $0.10/秒 | 200秒 |
中国大陆(北京)
模型名称 | 说明 | 单价 | 免费额度 |
wan2.6-i2v | 万相2.6。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。 | 720P:$0.086012/秒 1080P:$0.143353/秒 | 无免费额度 |
wan2.5-i2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:$0.043006/秒 720P:$0.086012/秒 1080P:$0.143353/秒 | 无免费额度 |
wan2.2-i2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:$0.02007/秒 1080P:$0.100347/秒 | 无免费额度 |
wanx2.1-i2v-turbo | 万相2.1极速版。生成速度快,表现均衡。 | $0.034405/秒 | 无免费额度 |
wanx2.1-i2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | $0.100347/秒 | 无免费额度 |
输入首帧图像和音频 | 输出视频(wan2.6) |
输入音频: | |
输入提示词:一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由他的rap构成,没有其他对话或杂音。 | |
图生视频-基于首尾帧
通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。视频呈现丰富的艺术风格及影视级画质。API参考|在线体验
国际(新加坡)
模型名称 | 单价 | 免费额度(注) |
wan2.1-kf2v-plus | $0.10/秒 | 200秒 有效期:百炼开通后90天内 |
中国大陆(北京)
模型名称 | 单价 | 免费额度(注) |
wanx2.1-kf2v-plus | $0.100347/秒 | 无免费额度 |
输入示例 | 输出视频 | ||
首帧图片 | 尾帧图片 | 提示词 | |
|
| 写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 | |
参考生视频
通义万相-参考生视频模型支持参考输入视频中的角色形象和音色,搭配提示词生成保持角色一致性的视频。API参考
计费规则:输入视频和输出视频均计费,按视频秒数计费,失败不计费也不占用免费额度。
输入视频的计费时长不超过 5 秒,具体规则参见计费与限流。
输出视频的计费时长为成功生成的视频秒数。
国际(新加坡)
模型名称 | 输入单价 | 输出单价 | 免费额度(注) |
wan2.6-r2v | 720P:$0.10/秒 1080P:$0.15/秒 | 720P:$0.10/秒 1080P:$0.15/秒 | 50秒 有效期:百炼开通后90天内 |
中国大陆(北京)
模型名称 | 输入单价 | 输出单价 | 免费额度(注) |
wan2.6-r2v | 720P:$0.086012/秒 1080P:$0.143353/秒 | 720P:$0.086012/秒 1080P:$0.143353/秒 | 无免费额度 |
通用视频编辑
通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考 | 在线体验
国际(新加坡)
模型名称 | 单价 | 免费额度(注) |
wan2.1-vace-plus | $0.1/秒 | 50秒 有效期:百炼开通后90天内 |
中国大陆(北京)
模型名称 | 单价 | 免费额度(注) |
wanx2.1-vace-plus | $0.100347/秒 | 无免费额度 |
视频编辑统一模型支持以下功能:
模型功能 | 输入参考图 | 输入提示词 | 输出视频 |
多图参考 | 参考图1(参考主体)
参考图2(参考背景)
| 视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当她站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下她与大自然的美妙邂逅。 | 输出视频 |
视频重绘 | 视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味 | ||
局部编辑 | 输入视频 输入掩码图像(白色区域表示编辑区域)
| 视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。 | 根据提示词修改编辑区域的内容 |
视频延展 | 输入首片段视频(1秒) | 一只戴着墨镜的狗在街道上滑滑板,3D卡通。 | 输出延长后的视频(5秒) |
视频画面扩展 | 一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团。 |





