音声合成(Text-to-Speech:TTS)は、テキストを自然な音声に変換する技術です。本ドキュメントでは、リアルタイム音声合成でサポートされるモデル、呼び出し方法、およびパラメーター構成について説明します。
主な特徴
中国語および英語を含む複数言語での自然な発音を実現する高品質な音声をリアルタイムで生成します。
音声クローン機能により、迅速に個別化された音色をカスタマイズできます。
低遅延のレスポンスを実現し、リアルタイム対話向けのストリーミング入力および出力をサポートします。
音声の話速、ピッチ、ボリューム、ビットレートを調整することで、細かい制御が可能です。
最大48 kHzのサンプルレートに対応した主要なオーディオフォーマットをサポートします。
サポート対象モデル
サポート対象モデル:
国際
「国際デプロイメントモード」では、アクセスポイントおよびデータストレージはシンガポールリージョンに配置されます。モデル推論の計算リソースは、中国本土を除く世界中で動的にスケジュールされます。
以下のモデルを呼び出す場合、シンガポールリージョン用のAPI キーを選択してください:
CosyVoice : cosyvoice-v3-plus、cosyvoice-v3-flash
中国本土
「中国本土デプロイメントモード」では、アクセスポイントおよびデータストレージは北京リージョンに配置されます。モデル推論の計算リソースは、中国本土内に限定されます。
以下のモデルを呼び出す場合、北京リージョン用のAPI キーを選択してください:
CosyVoice : cosyvoice-v3-plus、cosyvoice-v3-flash、cosyvoice-v2
詳細については、「モデル一覧」をご参照ください。
モデル選択
利用シーン | 推奨 | 理由 | 補足情報 |
ブランド音声のカスタマイズ/パーソナライズされた音声クローンサービス | cosyvoice-v3-plus | 最も強力な音声クローン機能を備えており、48 kHzの高品質オーディオ出力をサポートします。高品質な音声と音声クローンにより、人間らしいブランドボイスプリントを実現できます。 | コストが高め($0.286706/10,000 文字)。コアとなる利用シーンにご使用ください。 |
インテリジェントカスタマーサポート/音声アシスタント | cosyvoice-v3-flash | 最もコスト効率が高く($0.14335/10,000 文字)、ストリーミング対話および感情表現をサポートし、高速なレスポンスと優れたコストパフォーマンスを実現します。 | |
方言放送システム | cosyvoice-v3-flash、cosyvoice-v3-plus | 東北官話や閩南語など複数の方言をサポートしており、地域向けコンテンツ放送に適しています。 | cosyvoice-v3-plus はコストが高め($0.286706/10,000 文字)です。 |
教育用途(数式読み上げを含む) | cosyvoice-v2、cosyvoice-v3-flash、cosyvoice-v3-plus | LaTeX 数式から音声への変換をサポートしており、数学・物理・化学などの授業での解説に適しています。 | cosyvoice-v2 および cosyvoice-v3-plus はコストが高め($0.286706/10,000 文字)です。 |
構造化された音声放送(ニュース/アナウンス) | cosyvoice-v3-plus、cosyvoice-v3-flash、cosyvoice-v2 | SSML を使用して話速、一時停止、発音を制御でき、放送の専門性を高めます。 | SSML 生成ロジックの追加開発が必要です。感情設定はサポートしていません。 |
正確な音声・テキスト配置(字幕生成、学習用再生、ディクテーション訓練など) | cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2 | 合成音声と元のテキストを同期させるためのタイムスタンプ出力をサポートします。 | タイムスタンプ機能は明示的に有効化する必要があります(デフォルトでは無効です)。 |
多言語対応の海外向け製品 | cosyvoice-v3-flash、cosyvoice-v3-plus | 複数言語をサポートします。 | Sambert はストリーミング入力をサポートしておらず、cosyvoice-v3-flash よりも高コストです。 |
機能はリージョンおよびモデルによって異なります。「モデル機能比較表」を確認して、適切なモデルを選択してください。
クイックスタート
API 呼び出しのサンプルコードを以下に示します。その他のコード例については、「GitHub」をご参照ください。
まず、API キーの取得および環境変数への API キーの設定を行う必要があります。SDK を使用して呼び出しを行う場合は、さらにDashScope SDK のインストールも必要です。
CosyVoice 合成音声をファイルに保存PythonJavaLLM からのリアルタイムテキストを音声に変換し、スピーカーで再生以下のコードは、Qwen 大規模言語モデル(qwen-turbo)から得られるリアルタイムテキストを、オンプレミス端末上で再生する方法を示しています。 PythonPython のサンプルを実行する前に、pip を使用してサードパーティ製のオーディオ再生ライブラリをインストールしてください。 Java |
API リファレンス
モデル機能比較表
国際
「国際デプロイメントモード」では、エンドポイントおよびデータストレージはどちらもシンガポールリージョンに配置されます。モデル推論の計算リソースは、中国本土を除く世界中で動的にスケジュールされます。
機能 | cosyvoice-v3-plus | cosyvoice-v3-flash |
サポート言語 | システム音声(音声ごとに異なります):中国語(標準語、東北官話、閩南語、陝西話)、英語、日本語、韓国語 | システム音声(音声ごとに異なります):中国語(標準語)、英語 |
オーディオフォーマット | pcm、wav、mp3、opus | |
オーディオサンプルレート | 8 kHz、16 kHz、22.05 kHz、24 kHz、44.1 kHz、48 kHz | |
音声クローン | ||
SSML | この機能は、クローン音声および音声一覧で SSML 対応とマークされているシステム音声に適用されます。 「SSML の概要 | |
LaTeX | 「LaTeX 数式を音声に変換 | |
ボリューム調整 | | |
話速調整 | Java SDK では、このパラメーターは | |
ピッチ調整 | Java SDK では、このパラメーターは | |
ビットレート調整 | この機能は opus 形式のオーディオのみでサポートされます。 Java SDK では、このパラメーターは | |
タイムスタンプ | デフォルトでは無効ですが、有効化できます。 この機能は、クローン音声および音声一覧でタイムスタンプ対応とマークされているシステム音声に適用されます。 Java SDK では、このパラメーターは | |
命令制御(Instruct) | この機能は、クローン音声および音声一覧で Instruct 対応とマークされているシステム音声に適用されます。 | |
ストリーミング入力 | ||
ストリーミング出力 | ||
レート制限(RPS) | 3 | |
接続タイプ | Java/Python SDK、WebSocket API | |
価格 | $0.26/10,000 文字 | $0.13/10,000 文字 |
中国本土
「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージはどちらも北京リージョンに配置されます。モデル推論の計算リソースは、中国本土内に制限されます。
機能 | cosyvoice-v3-plus | cosyvoice-v3-flash | cosyvoice-v2 |
サポート言語 | システム音声(音声ごとに異なります):中国語(標準語、東北官話、閩南語、陝西話)、英語、日本語、韓国語 クローン音声:中国語(標準語、広東語、東北官話、甘粛、貴州、河南、湖北、江西、閩南、寧夏、山西、陝西、山東、上海、四川、天津、雲南)、英語、フランス語、ドイツ語、日本語、韓国語、ロシア語 | システム音声(音声ごとに異なります):中国語(標準語)、英語 クローン音声:中国語(標準語、広東語、東北官話、甘粛、貴州、河南、湖北、江西、閩南、寧夏、山西、陝西、山東、上海、四川、天津、雲南)、英語、フランス語、ドイツ語、日本語、韓国語、ロシア語 | システム音声(音声ごとに異なります):中国語(標準語)、英語、韓国語、日本語 クローン音声:中国語(標準語)、英語 |
オーディオフォーマット | pcm、wav、mp3、opus | ||
オーディオサンプルレート | 8 kHz、16 kHz、22.05 kHz、24 kHz、44.1 kHz、48 kHz | ||
音声クローン | 詳細については、「CosyVoice 音声クローン API 音声クローンでサポートされる言語は以下のとおりです: cosyvoice-v2:中国語(標準語)、英語 cosyvoice-v3-flash、cosyvoice-v3-plus:中国語(標準語、広東語、東北官話、甘粛、貴州、河南、湖北、江西、閩南、寧夏、山西、陝西、山東、上海、四川、天津、雲南)、英語、フランス語、ドイツ語、日本語、韓国語、ロシア語 | ||
SSML | この機能は、クローン音声および音声一覧で SSML 対応とマークされているシステム音声に適用されます。 「SSML の概要 | ||
LaTeX | 「LaTeX 数式を音声に変換 | ||
ボリューム調整 | | ||
話速調整 | Java SDK では、このパラメーターは | ||
ピッチ調整 | Java SDK では、このパラメーターは | ||
ビットレート調整 | この機能は opus 形式のオーディオのみでサポートされます。 Java SDK では、このパラメーターは | ||
タイムスタンプ | デフォルトでは無効ですが、有効化できます。 この機能は、クローン音声および音声一覧でタイムスタンプ対応とマークされているシステム音声に適用されます。 Java SDK では、このパラメーターは | ||
命令制御(Instruct) | この機能は、クローン音声および音声一覧で Instruct 対応とマークされているシステム音声に適用されます。 | ||
ストリーミング入力 | |||
ストリーミング出力 | |||
レート制限(RPS) | 3 | ||
接続タイプ | Java/Python SDK、WebSocket API | ||
価格 | $0.286706/10,000 文字 | $0.14335/10,000 文字 | $0.286706/10,000 文字 |
サポート対象のシステム音声
よくある質問
Q:音声合成で単語の発音が正しくない場合、どうすればよいですか? 同音異義語の発音を制御するにはどうすればよいですか?
多音字を同じ読みの文字に置き換えることで、発音の問題を迅速に修正できます。
SSML マークアップ言語を使用して発音を制御できます。
Q:クローン音声で生成された音声に音が出ない場合、どのようにトラブルシューティングすればよいですか?
音声のステータスを確認
特定の音声を照会するインターフェイスを呼び出して、音声モデルの
statusがOKであるかどうかを確認します。モデルバージョンの整合性を確認
音声クローンに使用した
target_modelパラメーターと、音声合成に使用したmodelパラメーターが同一であることを確認します。たとえば:cosyvoice-v3-plusをクローンに使用します。合成にも必ず
cosyvoice-v3-plusを使用します。
ソース音声の品質を確認
音声クローンに使用するソース音声が音声要件を満たしているか確認します:
音声の長さ:10~20 秒
明瞭な音質
バックグラウンドノイズなし
リクエストパラメーターを確認
音声合成のリクエストパラメーター
voiceがクローン音声の ID に設定されていることを確認します。
Q: 音声クローン後の合成音声の効果が不安定であったり、音声が途中で途切れたりする場合は、どうすればよいですか?
音声クローン後の合成音声で以下のような問題が発生した場合:
音声の再生が不完全で、テキストの一部しか読み上げられない。
合成効果が不安定または品質が一貫していない。
音声に異常な一時停止や無音区間が含まれている。
考えられる原因:ソース音声の品質が要件を満たしていないことです。
解決策:ソース音声が要件を満たしているか確認してください。推奨事項として、録音ガイドに従って再録音することをお勧めします。
音声の連続性を確認:ソース音声の内容が連続していることを確認します。長い一時停止や無音区間(2 秒以上)を避けてください。音声に明確な空白区間が含まれている場合、モデルがその無音やノイズを音声特性の一部と解釈し、生成品質に影響を与える可能性があります。
音声活動率を確認:有効な音声が全音声時間の 60% を超えるようにしてください。過度なバックグラウンドノイズや非音声セグメントは、音声特性の抽出を妨げる可能性があります。
音声品質の詳細を確認:
音声の長さ:10~20 秒(15 秒が推奨)
明瞭な発音、安定した話速
バックグラウンドノイズ、反響、雑音なし
集中した音声エネルギー、長い無音区間なし