全部产品
Search
文档中心

智能语音交互:功能特性

更新时间:Aug 09, 2023

本文为您介绍智能语音交互的各项功能及其对应场景、支持的语音格式和调用方式。

功能服务参数表

服务

时效性

功能

适用场景

支持的语音格式

支持调用方式

免费调用量

购买

一句话识别

实时

识别一分钟内的短语音。

APP语音搜索、语音电话客服、对话聊天、控制口令等场景。

PCM(无压缩的PCM或WAV文件)、OPUS

Java/C++/Android/iOS

最大2个并发

可单独购买

实时语音识别

实时

识别长时间的语音数据流。

会议演讲、视频直播等长时间不间断语音场景。

PCM(无压缩的PCM或WAV文件)

Java/C++/Android/iOS

最大2个并发

可单独购买

语音合成

实时

合成长度不超过300个字符(UTF-8编码)的文本内容。

需要人工合成音的场景。

PCM、WAV、MP3

Java/C++/Android/iOS

最大2个并发

可单独购买

录音文件识别

非实时

录音文件上传后(文件大小不超过512 MB),针对免费用户,可在24小时内完成识别并返回识别文本;针对付费用户,可在6小时内完成识别并返回识别文本。

说明

一次性上传大规模数据(半小时内上传超过500小时时长的录音)的除外,如果您有大规模数据转写需求,可与售前专家联系。

非实时识别场景。

支持单轨/双轨的WAV、MP3

Java/C++/GO/.NET/Node.js/PHP/Python

每个自然日最多识别2小时时长的录音文件

可单独购买

录音文件识别极速版

实时

识别文件大小不超过100 MB,30分钟以内时长的音频,转写完成时间不超过10秒。

短视频编辑工具、 电台和报社字幕内容。

AAC、MP3、OPUS、WAV

HTTP POST/Android/iOS

暂不支持免费试用

可单独购买

长文本语音合成

非实时

将超长文本(千字或万字)合成为语音二进制数据。

阅读小说、文章等场景。

PCM、WAV、MP3

JAVA/C++/RESTful API

暂不支持免费试用

可单独购买

设备端语音交互SDK

实时

远场信号处理、语音唤醒、人声检测、在线语音识别以及在线语音合成。

智能音箱、儿童教育故事机、语音IoT家电等需要远近场语音交互的智能硬件设备端。

PCM、WAV

Android/iOS/Linux/RTOS

10个免费设备授权

可单独购买

重要

  • 除录音文件识别和录音文件识别极速版以外的其他识别服务只支持单声道(mono)语音数据。

  • 识别服务只支持8000Hz/16000Hz采样率、16bit采样位数的音频。