ドキュメントセンター

すべてのプロダクト

ドキュメントセンター

:始める前に

最終更新日:Mar 14, 2025

インテリジェント音声対話を使用する場合は、クイックスタートドキュメントを参照して、インテリジェント音声対話の使用方法を確認できます。その後、インテリジェント音声対話に関する最新情報を入手するために、以下のトピックを順番に読むことをお勧めします。

トピック	説明
概念	インテリジェント音声対話に関連する用語と概念について説明します。
プロジェクトの管理	インテリジェント音声対話コンソールでプロジェクトを作成し、プロジェクトパラメーターを設定する方法について説明します。
アクセストークンの取得	アクセストークンを取得する方法について説明します。インテリジェント音声対話サービスを呼び出す前に、アクセストークンを取得する必要があります。
インテリジェント音声対話サービスの呼び出し	短文認識リアルタイム音声認識音声合成録音ファイル認識
音声認識のカスタマイズツールの使用	カスタマイズツールを使用して音声認識の効果を高める方法について説明します。

さまざまなインテリジェント音声対話サービスの違い

サービス	リアルタイムパフォーマンス	機能	シナリオ	オーディオコーディング形式	呼び出し方法	無料枠	購入
短文認識	リアルタイム認識。	1分以内の短い音声を認識します。	アプリの音声検索、カスタマーサービスホットライン、チャット会話、音声コマンド制御などのシナリオ	非圧縮 PCM または WAV ファイル用のパルス符号変調（ PCM ）と Opus	Java / C++ / Android / iOS	最大 2 つの同時呼び出しリクエスト	個別リソースパッケージ
リアルタイム音声認識	リアルタイム認識。	長期間続く音声データストリームを認識します。	会議のスピーチやライブストリーミングなどの途切れない音声認識シナリオ	非圧縮 PCM または WAV ファイル用の PCM	Java / C++ / Android / iOS	最大 2 つの同時呼び出しリクエスト	個別リソースパッケージ
音声合成	リアルタイム合成。	最大 300 文字の UTF-8 エンコード文字を含むテキストを音声に変換します。	テキスト読み上げ合成が必要なシナリオ	PCM 、 WAV 、および MP3	Java / C++ / Android / iOS	最大 2 つの同時呼び出しリクエスト	個別リソースパッケージ
録音ファイル認識	非リアルタイム認識。無料トライアルユーザーが録音ファイルの認識リクエストを送信した後、認識サーバーはファイルを認識し、24時間以内に結果を返します。有料ユーザーの場合、認識結果は 6 時間以内に返されます。説明 30分以内にアップロードされた録音ファイルの長さが 500時間を超える場合は、これは当てはまりません。このようなデータを変換する必要がある場合は、プリセールスサービスにお問い合わせください。	最大サイズが 512 MB の録音ファイルを認識します。	リアルタイム認識を必要としないシナリオ	シングルトラックおよびデュアルトラックの WAV および MP3	Java / C++ / GO / .NET / Node.js / PHP / Python	各カレンダー日で最大 2 時間の録音ファイルの認識呼び出しリクエスト	個別リソースパッケージ
長文音声合成	非リアルタイム合成。	数千または数万文字を含むテキストデータをバイナリオーディオデータに変換します。	小説や記事を読むなどのシナリオ	PCM 、 WAV 、および MP3	JAVA / C++ / RESTful API	トライアル版はありません	個別リソースパッケージ

重要

録音ファイル認識サービスを除き、インテリジェント音声対話の他の音声対話サービスは、モノラル音声データのみをサポートします。
インテリジェント音声対話は、8 kHz または 16 kHz でサンプリングされた 16 ビットオーディオファイルのみをサポートします。