音声合成、音声クローニング、音声デザインに使用するモデルを選択します。
標準音声合成かカスタム音声か?
音声合成モデルはテキストを自然な音声に変換します。まず、組み込み音声とカスタム音声のどちらがあなたの要件に合っているかを判断してください。
|
標準音声合成 |
カスタム音声 |
|
|
音声ソース |
すぐに利用可能な組み込み音声ライブラリ |
音声サンプルからクローンされた音声、またはテキスト記述から作成された音声 |
|
開始方法 |
追加設定不要 — モデルと音声を選択してすぐに合成を開始できます |
音声を作成するために音声サンプルまたはテキスト記述を提供します |
|
ユースケース |
カスタマーサービスボット、オーディオブックナレーション、ニュース放送、ECライブ配信 |
ブランド専用音声、バーチャルストリーマー、ゲームキャラクターの吹き替え |
|
推奨モデル |
|
|
標準音声合成を使用する場合:組み込み音声ライブラリが要件を満たしており、迅速かつゼロ構成で開始したい場合です。
カスタム音声を使用する場合:ブランド専用の音声が必要な場合、特定の人物の音声を再現したい場合、またはまったく新しいキャラクター音声を作成したい場合です。
音声クローニングか音声デザインか?
カスタム音声を選択した場合、以下の 2 つの作成方法を利用できます。
|
音声クローニング |
音声デザイン |
|
|
入力 |
対象話者の音声サンプル |
希望する音声のテキスト記述(例:「温かみのある低めの女性の声」) |
|
結果 |
合成音声が元の話者に非常に近いものになります |
記述に基づいてゼロから生成されたまったく新しい音声 |
|
ユースケース |
ブランド広報担当者やストリーマーの音声の再利用、バーチャルストリーマー、パーソナライズされた音声アシスタント |
ブランド音声のカスタマイズ(録音が利用できない場合)、ゲームやアニメーションのキャラクター吹き替え、クリエイティブコンテンツ制作 |
|
推奨モデル |
|
|
|
音声管理サービス |
|
|
音声クローニングを使用する場合:対象話者の録音があり、その音声を合成音声で再現したい場合です。
音声デザインを使用する場合:録音がなく、テキスト記述に基づいて新しい音声を作成したい場合です。
WebSocket か HTTP か?
WebSocket:双方向ストリーミング通信をサポートし、ストリーミング入出力が可能です。合成された音声はリアルタイムで返されるため、レイテンシーが最も低くなります。カスタマーサービスボット、音声アシスタント、コールセンターなど、リアルタイムインタラクティブなシナリオに最適です。
HTTP:全文テキスト入力を受け付け、ストリーミング音声出力(セグメント単位で配信)をサポートします。オーディオブックナレーション、コンテンツ生成、オフラインコンテンツ制作に最適です。
CosyVoice モデルは、WebSocket と HTTP の両方で同じモデル名を使用します。Qwen モデルは名前で区別されます。-realtime サフィックスが付いたモデルは WebSocket を使用し、サフィックスのないモデルは HTTP を使用します。
CosyVoice および Qwen の WebSocket モデルは、DashScope SDK(Java、Python)経由でアクセスできます。 その他のモデルは、対応する WebSocket または HTTP プロトコルを直接呼び出す必要があります。
WebSocket アクセスについては、「リアルタイム音声合成」をご参照ください。HTTP アクセスについては、「非リアルタイム音声合成」をご参照ください。
インストラクション制御
自然言語で希望する表現スタイルを記述することで、リクエストごとに音声の速度、感情、スタイルを動的に制御できます。たとえば、「少しゆっくりめの優しい話し方」や「興奮した放送風のスタイル」などです。感情豊かなコンテンツ、プロフェッショナルな放送、多彩な声のバリエーションが必要なオーディオブックナレーションに最適です。
cosyvoice-v3.5-plus または cosyvoice-v3.5-flash モデルを使用してください。
推奨モデル
以下の表は、各シナリオに推奨されるモデルを示しています。詳細については、モデルギャラリーをご参照ください。
|
モデル |
シリーズ |
API |
音声クローニング |
音声デザイン |
インストラクション制御 |
|
|
CosyVoice |
WebSocket |
|
|
|
|
|
CosyVoice |
WebSocket |
|
|
|
すべてのモデル
CosyVoice
CosyVoice モデルの一部は、SSML マークアップおよび LaTeX 数式の読み上げをサポートしています。
|
モデル |
API |
音声クローニング |
音声デザイン |
インストラクション制御 |
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
Qwen3-TTS
|
モデル |
API |
音声クローニング |
音声デザイン |
インストラクション制御 |
|
|
HTTP |
|
|
|
|
|
HTTP |
|
|
|
|
|
HTTP |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
HTTP |
|
|
|
|
|
HTTP |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
HTTP |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
|
|
HTTP |
|
|
|
|
|
WebSocket |
|
|
|
|
|
WebSocket |
|
|
|
Qwen-TTS(レガシー、トークンベース課金)
以下は、トークン単位で課金されるレガシー Qwen-TTS モデルです。Qwen3-TTS に移行済みの場合は、前述の推奨モデルをご確認ください。
|
モデル |
API |
説明 |
|
|
HTTP |
非ストリーミング合成、トークン単位課金 |
|
|
HTTP |
非ストリーミング合成、トークン単位課金 |
|
|
HTTP |
スナップショット版、トークン単位課金 |
|
|
HTTP |
スナップショット版、トークン単位課金 |
|
|
WebSocket |
ストリーミング合成、トークン単位課金 |
|
|
WebSocket |
ストリーミング合成、トークン単位課金 |
|
|
WebSocket |
スナップショット版、ストリーミング合成、トークン単位課金 |