全部产品
Search
文档中心

媒体处理:功能特性

更新时间:Mar 27, 2024

媒体处理可以将一个音视频文件转换成另一个或多个音视频文件,以适应不同网络带宽、终端设备和用户的需求。对媒体的内容、文字、语音、场景进行多模态分析,实现智能审核、内容理解、智能编辑等多种处理功能。

音视频转码

把音视频码流转换为另一种清晰度、编码格式或封装格式,以适应不同网络带宽、不同终端播放设备的使用场景。媒体处理覆盖了主流编码及封装格式,并且支持在转码过程中添加水印、字幕、简单剪辑等处理,详见下文。未在控制台或API展示的功能,请通过商务人员联系技术团队。

重要

以下功能需要提交转码作业使用,按照输出的视频规格和时长,收取普通转码费用。计费说明请参见转码定价

参数

类型

说明

输入文件

封装格式

  • 视频:3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF、VOB。

  • 音频:AAC、FLAC、M4A、MP3、MP4、OGG。

  • 字幕:ASS、SSA、SRT、VTT。

视频编码格式

Apple ProRes、AVS+、AVS、AVS2、H.263、 H.263+、H.264/AVC、H.265/HEVC、H.266/VVC、MJPEG、MPEG-1、MPEG-2、MPEG-4、Quicktime、RealVideo、VP8、VP9、Windows Media Video。

音频编码格式

AAC、AC3、ADPCM、AMR、DSD、EAC3、MP1、MP2、MP3、PCM、RealAudio、Vorbis、Windows Media Audio。

文件大小

最大100 GB。

色彩空间

4:2:2、4:2:0等。

输出文件

封装格式

说明
  • 封装格式与编码格式需要搭配使用,支持规则请参见格式支持。未在控制台或API展示的功能请通过商务人员联系技术团队。

  • 转封装不改变音视频流的编码方式,仅改变封装格式。支持输出MP4、HLS、FLV三种格式。

  • 视频:HLS、DASH、CMAF、3GP、AVI、FLV、F4V、fMP4、MKV、MOV、MP4、MPEG、TS、MXF、WebM。

  • 动图:GIF、WEBP。

  • 音频:AAC、M4A、MP2、MP3、MP4、OGG、FLAC、WAV。

编码格式

  • 视频:H.263、H.264/AVC、 H.265/HEVC、H.266/VVC、VP8、VP9、AV1、AVC-Introa、AVS2、MPEG-1、MPEG-2、MPEG-2 422、MPEG-4、Apple ProRes。

  • 动图:GIF、WEBP。

  • 音频:AAC、AC3、EAC3、MP2、MP3、FLAC、OPUS、VORBIS、Windows Media Audio、pcm_s16le。

编码级别

  • H.264支持Baseline、Main、High三种编码级别。

  • AAC支持aac_low、aac_he、aac_he_v2、aac_ld、aac_eld五种编码级别。

分辨率

  • H.264输出分辨率范围为[128,4096],单位为px。

  • H.265、H.266、AV1输出分辨率范围为[128,8192],单位为px。

码率

  • H.264输出码率范围为[10,50000],单位为Kbps。

  • H.265、H.266、AV1输出码率范围为[10,200000],单位为Kbps。

帧率

输出帧率范围为(0,60],单位为fps。

采样位深

  • H.264支持8bit。

  • H.265支持最高12bit。

颜色格式

yuv420p,yuvj420p,yuv422p,yuvj422p,yuv444p,yuvj444等。

码率控制

VBR、CBR、ABR、CRF。

扫描模式

支持原视频模式、自动去隔行、交叉扫描、顺序扫描。

窄带高清TM

窄带高清TM是一项基于阿里云转码技术的媒体处理功能,通过提高视频压缩率、减小文件体积,从而减少播放卡顿并节省存储和流量费用。

重要

以下功能需要在提交转码作业时选择对应窄带高清转码模板使用,按照输出的视频规格和时长,收取窄带高清转码费用。

类型

说明

窄带高清TM1.0

针对视频画面场景、动作、内容、纹理等细节进行智能分析,实现在同等画质下平均节约20~40%码率、在同等带宽下更高清的观看体验。支持H.264、H.265编码,其他参数同普通转码。单击在线体验

窄带高清TM2.0

突破视频编码器能力上限并融入轻量画质修复与增强能力,实现在同等画质下平均节约40%~60%码率、在低带宽下更高清优质的观看体验。支持H.264、H.265编码,其他参数同普通转码。单击在线体验

音频增强

音频增强

视频云音频实验室有机结合传统信号处理与深度学习技术,提供全场景音频增强与修复方案。

重要

以下功能需要在提交转码作业配置相应参数使用,音频部分按照输出的音频规格和时长,收取音视频增强费用。视频部分按照使用的服务,收取转码费用。如需开启音频增强转码模板,请搜索钉钉群32171220入群联系阿里云技术人员配置。

功能

说明

音效增强

支持对单/双/5.1/7.1多声道音频进行效果增强,针对耳机、外放等不同播放环境,提供影视级品质、自然、清晰、可定制的音效氛围,适用于音乐、演讲、影视内容场景。

音量归一

智能调节视频响度,进行归一化处理。解决短视频、音乐连播场景下,因内容源音量参差不齐,带来音量忽大忽小的问题。

倍速转码

将视频源切分为多个较小的片段后并行转码,可将转码速度提升5~30倍,显著缩短处理耗时,适用于对首发、时效性要求较高的资讯、赛事、重要内容场景。

重要

通过提交转码作业并启用倍速管道为转码任务提速。除收取原本音视频转码或音视频增强费用外,会按输出的视频规格、时长和实际倍速,额外收取倍速费用。

类型

说明

加速倍数

根据输入视频情况,一般可达到5~30倍。支持在倍速管道上设置预期倍速,如5倍速、10倍速、20倍速、30倍速等。

适用视频

推荐30分钟以上的长视频,或对高帧率、超高清、音画增强等复杂处理的视频采用倍速转码。详细说明,请参见倍速转码使用限制

倍速策略

并非所有视频都支持切片,投递到倍速管道中但不支持倍速的视频,会默认退避到非倍速模式转码。

更多处理

媒体信息

获取存储于OSS上的音视频文件信息,包括分辨率、码率、帧率、编码格式、文件格式等关键信息。

重要

该功能需要通过提交媒体信息作业使用,按请求次数,收取功能接口请求费用。

简单剪辑

对视频进行提取音频、提取视频、拼接、剪辑、混音等简单的二次创作。

重要

以下功能需要通过提交转码作业时设置相应参数使用,按输出的视频规格和时长,收取转码费用。

功能

说明

API相关参数

控制台操作

提取音频

从视频文件中单独分离出音频,即禁用视频。

Remove

支持

提取视频

从视频文件中单独分离出视频,即禁用音频。

Remove

支持

视频去黑边

检测视频画面中的黑边,并自动剪裁。

Crop

不支持

视频剪裁

指定输入视频画面经过剪裁后保留的宽度和高度,以及该保留画面与输入画面左边、上边的相对距离,两个画面的间隙自动剪裁。

Crop

不支持

视频贴黑边

指定输入视频画面经过贴黑边后输出的宽度和高度,以及输入画面与输出画面左边、上边的相对位置,两个画面的间隙使用黑边填充。

Pad

不支持

横竖屏自适应

开启后,输出分辨率由宽度、高度,变为长边、短边参数。当您的输入视频同时包含横屏、竖屏时建议开启该参数。

LongShortMode

支持

视频旋转

设置视频旋转角度。

Rotate

支持

视频拼接

将最多100个视频进行拼接,可设置每个被拼接视频的开始、持续时间。

MergeList或MergeConfigUrl

不支持

视频剪辑

  • 视频片段剪辑:从指定时间点,开始截取指定时长的视频。

  • 片尾剪辑:截掉指定时长的片尾。

Clip

支持

开场和关板

在视频开头叠加动态Logo,并指定片尾内容。增加产品识别度,突出版权。

OpeningList和TailSlateList

支持添加片尾

模糊处理

对视频内的指定区域进行模糊处理。

DeWatermark

不支持

混音

实现两音轨合并,适用于增加背景音乐场景。

Amix

不支持

视频截图

对视频截取指定时间、指定尺寸的图片,用于生产视频封面、雪碧图、播放器进度条缩略图。

重要

以下功能需要通过提交截图作业使用,按截图张数,收取功能接口请求费用。

功能

说明

API相关参数

控制台操作

静态截图

对视频截取指定时间、指定尺寸的JPG图片。提供以下几种采样方式:

  • 单张截图:在指定时间点截取一张图片。支持同步或异步调用。

  • 采样截图:指定截图数量和间隔,从指定时间点开始,每隔指定时长(秒)就截取一张截图,截够指定数量或截到视频结尾停止。仅支持异步调用。

  • 平均截图:指定截图数量,从指定时间点开始,按相同的时间间隔进行截图,截到视频结尾停止。仅支持异步调用。

  • 时间点截图(内测中):指定一组时间点,按这些时间点进行截图。仅支持异步调用。

SnapshotConfig

支持

雪碧截图

设置后,对截取的一系列静态图片,会按照指定的排列规则拼成一张大图,这张大图即为雪碧图。格式为JPG。仅支持异步调用。通过一次请求雪碧图可获取多张图片的信息,实现大幅降低图片请求数量,提高客户端性能。

TileOut、TileOutputFile

不支持

WebVTT截图

设置后,对截取的一系列静态图片或雪碧图,会生成VTT文件,文件包含截图时间、截图文件地址、雪碧图坐标信息。在使用图片时需要先获取VTT文件,解析图片的信息进行展示。可用于播放器进度条缩略图展示。

SubOut

支持

关键帧截图

设置后,只截取关键帧。如对应指定时间点为非关键帧,则就近选取关键帧。

FrameType

支持

首帧黑屏检测

对于首帧图片(time=0)可以使用黑屏检测。通过设置黑色像素的画面比例和颜色值定义黑屏。截图时会检测视频的前5秒,如果有非黑屏图片,则截取非黑屏图片;否则,单图任务返回失败,多图任务截取第一帧黑屏图片。

BlackLevel、PixelBlackThreshold

支持

视频水印(明水印)

在视频中添加可见的明水印(例如,企业Logo、电视台台标),突出品牌和版权,增加产品识别度。为视频添加不可见的盲水印用于版权追溯,详细说明请参见下文数字水印(暗水印)说明。

重要

以下功能需要通过提交转码作业使用,指定水印素材和水印模板(可选)使用,按输出的视频规格和时长,收取转码费用;同时按水印个数,收取功能接口请求费用。

功能

说明

API相关参数

控制台操作

图片水印

  • 单个视频最多添加4组水印,支持设置水印开始时间、持续时长、出现的固定位置、水印大小。

  • 图片水印支持PNG静态图片(扩展名.png)、PNG动图(扩展名.apng)、MOV文件(扩展名.mov)、GIF文件(扩展名.gif)。

  • 支持使用水印模板简化开发。

WaterMarks

支持

文字水印

  • 单个视频最多添加4组水印,支持设置水印开始时间、持续时长、出现的固定位置、水印大小。

  • 文字水印可设置文字内容、字号、字体、颜色、透明度、描边效果等。支持的字体及颜色请参见字体支持颜色

  • 不支持使用水印模板。

WaterMarks

不支持

添加字幕

在视频中添加字幕,在多语言片源、或视频静音或环境嘈杂的场景、或令听障人士也能无障碍的理解和欣赏视频。

重要

以下功能需要通过提交转码作业配置工作流发起转码使用,按输出的视频规格和时长,收取转码费用。

功能

说明

API相关参数

控制台操作

打包字幕

通过工作流打包将字幕文件与音视频流打包到同一个Master Playlist(m3u8或mpd文件)中,一个Master Playlis最多添加4路字幕,可以实现在播放器中切换多版本字幕的能力。字幕格式:HLS打包支持VTT,DASH打包支持VTT、STL、TTML。

  • HLS打包:ExtXMedia

  • DASH打包:inputconfig

支持

视频打包

打包是指将多码率、多音轨、多字幕、多音轨生成一个Master Playlist文件的过程。在流媒体播放场景下,可以实现:

  • 自适应码流:根据网络情况自适应码流,可以解决起播慢、播放卡顿问题。

  • 广告植入:在两个分片之间灵活插入视频广告。

重要

以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。

功能

说明

API相关参数

控制台操作

HLS协议

使用Apple HLS协议进行打包,支持二级索引,索引文件格式为m3u8,视频文件格式为ts。

参见如何进行HLS打包

支持

CMAF协议

用CMAF协议进行打包,支持输出HLS或DASH格式。

暂无

不支持

自定义分片时长

指定最多10个分片时间点,和其余时长的分片间隔。范围1至60秒。有助于用户根据播放端带宽条件来设定切片时长,降低用户首屏加载时间。

Segment

不支持

视频加密

重要

以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。

功能

说明

API相关参数

控制台操作

HLS标准加密

将视频内容按照HLS AES-128标准协议进行加密,密钥支持自建或使用KMS服务,在HLS规定的播放器上均可解密播放。可保障移动端视频安全。具有安全级别较高、终端兼容性好的优点。

不涉及

支持

阿里云私有加密

将视频文件按照阿里云私有加密协议进行加密,转成加密的HLS格式,密钥必须使用KMS服务,播放必须使用阿里云播放器进行解密播放,即使将文件下载到本地也无法播放和二次传播。可保障移动端、FLASH端视频安全。具有安全级别高,适用于在线教育,付费观看等场景。

不涉及

支持

视频AI

智能审核

对媒体文件的标题、简介、封面、视频、音频等内容进行审核,有效识别违规内容。应用于短视频平台、直播平台、传媒审核等场景。

重要

以下功能需要通过提交媒体审核作业使用,按成功处理的视频时长,收取智能审核费用。

功能

审核内容

说明

媒体内容审核

涉黄识别

识别语音、文字、画面中的色情和性感内容。

暴恐涉政识别

识别武器、血腥场面、特殊装束、爆炸烟光、特殊标识、聚众、游行等十余个维度的暴恐涉政内容。

广告/二维码识别

识别媒体文件中的文字、水印、二维码,有效识别牛皮癣广告、二维码、小程序码等多种形式的图文广告。

Logo识别

识别视频图片中的各种Logo图标,如台标、商标、水印等,常用于版权保护等场景。

不良场景识别

识别画中画、吸烟、车内直播、无意义画面等需要监管的不良场景。

语音垃圾识别

识别语音中存在的涉黄、暴恐涉政、辱骂等违规信息,支持中文、英文语音识别。

视频DNA

基于阿里云视频指纹技术,通过指纹特征来唯一标记一个视频/音频/图片/文本,提供视频、图像、音频等指纹特征提取、对比功能,可以解决重复视频查找、视频片段查源等问题。

重要

以下功能需要通过提交DNA作业使用,按成功处理的音视频时长,收取视频DNA费用。

功能

说明

视频DNA

提取视频画面指纹,支持入库分析及指纹特征比对,查找库内相似视频。

音频DNA

提取音频指纹,支持入库分析及指纹特征比对,查找库内相似音频。

图片DNA

提取图片画面指纹,支持入库分析及指纹特征比对,查找库内相似图片。

文本DNA

提取文本内容指纹,支持入库分析及指纹特征比对,查找库内相似文本。

服务管理

类别

说明

API相关参数

控制台操作

媒体管理

媒体视频文件上传、管理与发布。

不涉及

不涉及

工作流编排

云端自动化处理工作流,音视频上传完毕后自动执行处理流程。

不涉及

支持

转码模板

转码模板是一系列转码参数的集合,在创建转码任务或使用工作流时,可以使用转码模板简化操作。按创建来源分为自定义模板、定制模板、系统预置模板。

TemplateId

支持

水印模板

水印模板是一系列包含水印位置、大小的参数,使用水印模板,可以帮助您简化开发操作。

WaterMarkTemplateId

支持

转码优先级

设置任务在管道内的转码优先级,最多分为10级。

Priority

不支持

条件转码

对比原视频的视频码率、视频分辨率、音频码率是否小于指定输出设置,如果小于则按原画或不转码。

IsCheckReso、IsCheckResoFail等

支持

管道队列

媒体处理转码、异步截图等作业为异步处理,需要加入管道中被调度执行。支持创建多个任务管道,并设置任务在管道内的转码优先级,最多分为10级。

Priority

不支持

消息通知

媒体处理转码、异步截图等作业为异步处理。通过集成MNS服务,为管道或工作流绑定主题或队列通知,当任务完成、工作流开始和结束时会通过MNS主动推送给用户。

NotifyConfig

支持