媒体处理将一个音视频文件转换成另一个或多个音视频文件,以适应不同网络带宽、不同终端设备和不同的用户需求。对媒体的内容、文字、语音、场景进行多模态分析,实现智能审核、内容理解、智能编辑等多种处理功能。

您可以使用媒体处理解决哪些问题?
  • 适配终端设备:转换媒体格式,支持PC、TV以及移动终端等多平台播放。
  • 适配网络环境:把视频转码为标清、高清、超高清等多个清晰度,以便不同网络带宽的用户选择最佳码率,流畅播放。
  • 添加水印:在视频中添加水印(例如,企业logo、电视台台标、用户昵称),突出品牌和版权,增加产品识别度。
  • 截图:截取指定时间点的画面,用做视频封面或生成雪碧图。
  • 视频编辑:对视频进行剪辑、拼接等二次创作。
  • 画质重生:针对画质较差的视频,去除画面中的毛刺、马赛克等,修复为高清晰版本。
  • 降低存储、分发成本: 保证在相同画质质量的前提下,调整视频码率、提高视频压缩率、减小文件体积,从而减少播放卡顿并节省存储和流量费用。
  • 视频内容保护:视频加密和DRM技术对数据内容加密,防下载,适用于在线教育、原创保护、付费观看、版权视频等场景。视频DNA:提取视频中的图像、音频等DNA特征,生成视频DNA,实现重复视频查找、视频片段查源等功能,适用于视频去重、侵权视频过滤、原创识别、视频溯源等场景。
  • 智能审核:智能识别视频内语音、文字、画面的色情、暴恐涉政、广告、不良画面等内容,大幅节省人工审核人力成本,降低违规风险。
  • 提升转化:通过对视频内容理解,结合画面美学和海量用户行为数据,选出最优关键帧,生成图片、动图或短视频,可用做视频封面,提升视频点击转化。

转码

封装格式

参数 说明
输入格式
  • 容器格式:3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF。
  • 视频编码格式:H.264/AVC、H.263、 H.263+、H.265、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、Quicktime、RealVideo、Windows Media Video。
  • 音频编码格式:AAC、AC-3、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio。
输出格式
  • 容器格式:
    • 视频:FLV、MP4、HLS(m3u8+ts)、MPEG-DASH(MPD+fMP4)。
    • 音频:MP3、MP4、OGG、FLAC、m4a。
    • 图片:GIF、WEBP。
  • 视频编码格式:H.264/AVC、 H.265/HEVC。
  • 音频编码格式:MP3、AAC、VORBIS、FLAC。
音频提取 从视频文件中单独分离出音频,即禁用视频。
视频提取 从视频文件中单独分离出视频,即禁用音频。
转封装 不改变视频的编码方式,仅改变封装格式。支持音视频转封装为MP4、M3U8、FLV三种格式。
视频转动图 对视频的精彩片段截取动图(GIF/WEBP格式)用于展示。
视频编码参数
参数 说明
Codec 编解码格式。
  • 支持H.264、H.265、GIF、WEBP。
  • 默认值:H.264。
Bitrate 码率。
  • 支持输出码率范围:10~50000。
  • 单位:Kbps。
Fps 帧率。
  • 默认值取输入文件帧率,当输入文件帧率超过60时,取60。
  • 取值范围:0~60。
  • 单位:fps。
Width* Height 分辨率。
  • 宽:
    • 默认值:视频原始宽度。
    • 取值范围:128~4096。
    • 单位:px。
  • 高:
    • 默认值:视频原始高度。
    • 取值范围:128~4096
    • 单位:px。
Scale 自动缩放。支持按照宽度等比例缩放支持按照高度等比例缩放。
Gop 关键帧间最大时间间隔或者最大帧数。
  • 最大时间间隔时,必传单位,单位:秒。默认值:10秒。
  • 最大帧数时,无单位。取值范围:1~100000。
Profile 编码级别。H.264:支持Baseline、Main、High三种编码级别。
PixFmt 视频颜色格式。
  • 支持yuv420p、yuvj420p等标准颜色格式。
  • 默认值:yuv420p或原始颜色格式。
Rotate 视频旋转角度 。把视频画面顺时针旋转。
  • 取值范围:0~360。
  • 默认值:0。
视频处理参数
参数 说明
ScanMode 扫描模式。支持interlaced、progressive。
Rate Control Modes 码率控制方法。支持如下几种码率控制方法:VBR、CBR、CRF。
Crop 视频画面裁切。支持自动检测黑边并裁切,支持自定义裁切参数。
Pad 视频贴黑边。支持为视频添加黑边。
音频编码参数
参数 说明
Codec 编解码格式。
  • 音频编解码格式,AAC、MP3、VORBIS、FLAC。
  • 默认值:AAC。
Samplerate 采样率。
  • 默认值:44100。
  • 支持22050、32000、44100、48000、96000。
  • 单位:Hz。
  • 若视频容器格式为FLV,音频编解码格式选择为MP3,则采样率不支持32000、48000、96000。
  • 若音频编解码格式为MP3,则采样率不支持96000。
Bitrate 音频码率。
  • 默认值:128。
  • 码率范围:8~1000。
  • 单位:Kbps。
Channels 声道数。
  • 默认值:2。
  • 当Codec设置为 MP3 时,声道数只支持1、2。
  • 当Codec设置为 AAC 时,声道数只支持1、2、4、5、6、8。
转码控制
类别 说明
HLS MasterPlayList 将多字幕、多音轨、多码率视频流生成一个Master Playlist文件。
条件转码 支持两种方式:
  • 如果转码模板的码率(或分辨率)比输入视频更高,则不进行该规格的视频转码。
  • 如果转码模板的码率(或分辨率)比输入视频更高,则在进行该规格的转码时,输出码率(或分辨率)等于输入视频码率(或分辨率)。
工作流 云端自动化处理工作流,音视频上传完毕后自动执行处理流程。

转码模板

预置模板

媒体处理服务为适配一定网络带宽范围的输出视频预设了一系列转码模板:

  • 预置智能模板

    会根据输入视频的具体情况而自动调整转码参数以满足输出视频要求。由于输入视频本身有差异(分辨率、码率等),不一定所有的预置智能模板都适合。因此,需要通过模板分析作业来获取指定输入文件的可用预置模板。多媒体文件的转码,实际是在尽可能压缩文件大小(即降低码率)与尽可能减少文件质量损失之间的平衡,预置智能模板以质量优先。

  • 预置静态模板

    可以直接调用的预置模板,无需进行模板分析。它分为三类:视频转码模板、音频MP3转码模板及转封装模板,涵盖常见的播放设备及带宽条件,以码率控制优先。

  • 预置窄带高清 TM模板

    可以直接调用的预置模板,无需进行模板分析。提供FLV、MP4、M3U8三种输出格式的视频转码模板。预置窄带高清 TM模板(包含预置窄带高清TM1.0模板、预置窄带高清TM2.0模板)是阿里云媒体处理独设的一组转码模板,相比普通转码模板,在相同的清晰度下,能带来更低的码率,帮助您节约更多的成本。

自定义模板

由用户自行定义转码参数的转码模板,它是转码参数(音频、视频、容器等)的集合。可以根据用户实际转码需求进行个性化定制,包含普通模板、窄带高清TM1.0模板、窄带高清TM2.0模板。

编辑

类别 说明
视频剪辑 从指定时间点开始,截取指定时长的媒体剪辑。
视频拼接 最多支持20个视频拼接。
模糊处理 对视频指定区域进行模糊处理。
开场和关板
  • 在视频开头,叠加动态logo,并指定片尾内容。
  • 增加产品识别度,突出版权。

水印

类别 说明
静态水印
  • 支持在输出的视频上覆盖最多20个水印。
  • 支持PNG、文字、MOV、APNG格式。
动态水印 支持指定水印的显示时间。

截图

类别 说明
视频截图
  • 对存储于OSS上的视频文件截取指定时间的JPG格式图像。
  • 支持单张截图、多张截图、平均截图。
雪碧图/webvtt缩略图 截取一系列图片生成雪碧图,通过一次请求获取多张图片的信息,大幅降低图片请求数量,提高客户端性能。
智能首图 通过对视频内容的理解并结合画面美学,选出最优的关键帧作为视频封面图。

窄带高清 TM

类别 说明
窄带高清 TM1.0 窄带高清TM1.0是一项基于阿里云独家转码技术的媒体处理功能。窄带高清TM1.0在转码过程中对视频中的场景、动作、内容、纹理等进行智能分析,以相对较低的码率输出相同画质的视频,从而在一定程度上降低带宽成本。
窄带高清 TM2.0 窄带高清TM2.0是一项基于阿里云独家转码技术的媒体处理功能。从人眼视觉模型出发,将编码器的优化目标从“保真度最高”调整为“主观体验最好”,在节省码率的同时,也能提供更加清晰的观看体验。

画质重生

类别 说明
高帧率视频重制 (FRC) 对于30帧/秒以内的普通帧率高清节目,生成60帧/秒甚至120帧/秒的高帧率版本,4K大屏播放也无顿挫感。
片源修复 (PicRescue) 对于被过度压缩的网络视频,去除画面中的毛刺和马赛克,生成更高清晰度的修复重制版。
标清转高清重制服务(SD转HD) 对于标清的经典老片,去除胶片颗粒和压缩噪声,加以超分辨率技术,生成720p甚至1080p的高清版本。
2K转4K重制服务(2K转4K) 对于1080p影片,利用基于海量视频训练的超分辨率技术,生成独家高品质4K节目源。

倍速转码

适用于30分钟以上的长视频,通过对视频分片并行转码,可将转码速度提升5倍。

更多功能

类别 说明
媒体信息 支持获取存储于OSS上的音、视频文件的编码和内容信息。
M3U8输出自定义切片时长
  • 支持自定义设置M3U8切片时长,范围从1秒至60秒。
  • 有助于用户根据播放端带宽条件来设定切片时长,降低用户首屏加载时间。
外挂字幕 转码支持导入外部字幕文件并指定字幕编码格式。
消息通知集成
  • 集成MNS服务。
  • 为管道设定消息通知属性,管道内转码作业异步接口的返回消息可通过消息通知服务主动推送到用户的消息接收服务。
播放
  • 提供Web播放器,支持Flash、HTML5及自适应模式。
  • 提供移动端播放器SDK,支持iOS、Android。