音声合成 - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

音声合成、音声クローニング、音声デザインに使用するモデルを選択します。

標準音声合成かカスタム音声か？

音声合成モデルはテキストを自然な音声に変換します。まず、組み込み音声とカスタム音声のどちらがあなたの要件に合っているかを判断してください。

	標準音声合成	カスタム音声
音声ソース	すぐに利用可能な組み込み音声ライブラリ	音声サンプルからクローンされた音声、またはテキスト記述から作成された音声
開始方法	追加設定不要 — モデルと音声を選択してすぐに合成を開始できます	音声を作成するために音声サンプルまたはテキスト記述を提供します
ユースケース	カスタマーサービスボット、オーディオブックナレーション、ニュース放送、ECライブ配信	ブランド専用音声、バーチャルストリーマー、ゲームキャラクターの吹き替え
推奨モデル	`cosyvoice-v3-plus`	`cosyvoice-v3.5-plus`（音声クローニング＋音声デザイン）

標準音声合成を使用する場合：組み込み音声ライブラリが要件を満たしており、迅速かつゼロ構成で開始したい場合です。
カスタム音声を使用する場合：ブランド専用の音声が必要な場合、特定の人物の音声を再現したい場合、またはまったく新しいキャラクター音声を作成したい場合です。

音声クローニングか音声デザインか？

カスタム音声を選択した場合、以下の 2 つの作成方法を利用できます。

	音声クローニング	音声デザイン
入力	対象話者の音声サンプル	希望する音声のテキスト記述（例：「温かみのある低めの女性の声」）
結果	合成音声が元の話者に非常に近いものになります	記述に基づいてゼロから生成されたまったく新しい音声
ユースケース	ブランド広報担当者やストリーマーの音声の再利用、バーチャルストリーマー、パーソナライズされた音声アシスタント	ブランド音声のカスタマイズ（録音が利用できない場合）、ゲームやアニメーションのキャラクター吹き替え、クリエイティブコンテンツ制作
推奨モデル	`cosyvoice-v3.5-plus`、`cosyvoice-v3.5-flash`	`cosyvoice-v3.5-plus`、`cosyvoice-v3.5-flash`
音声管理サービス	`voice-enrollment`（音声の登録および管理）	`voice-enrollment`（音声の登録および管理）

音声クローニングを使用する場合：対象話者の録音があり、その音声を合成音声で再現したい場合です。
音声デザインを使用する場合：録音がなく、テキスト記述に基づいて新しい音声を作成したい場合です。

WebSocket か HTTP か？

WebSocket：双方向ストリーミング通信をサポートし、ストリーミング入出力が可能です。合成された音声はリアルタイムで返されるため、レイテンシーが最も低くなります。カスタマーサービスボット、音声アシスタント、コールセンターなど、リアルタイムインタラクティブなシナリオに最適です。
HTTP：全文テキスト入力を受け付け、ストリーミング音声出力（セグメント単位で配信）をサポートします。オーディオブックナレーション、コンテンツ生成、オフラインコンテンツ制作に最適です。

CosyVoice モデルは、WebSocket と HTTP の両方で同じモデル名を使用します。Qwen モデルは名前で区別されます。-realtime サフィックスが付いたモデルは WebSocket を使用し、サフィックスのないモデルは HTTP を使用します。

CosyVoice および Qwen の WebSocket モデルは、DashScope SDK（Java、Python）経由でアクセスできます。その他のモデルは、対応する WebSocket または HTTP プロトコルを直接呼び出す必要があります。

WebSocket アクセスについては、「リアルタイム音声合成」をご参照ください。HTTP アクセスについては、「非リアルタイム音声合成」をご参照ください。

インストラクション制御

自然言語で希望する表現スタイルを記述することで、リクエストごとに音声の速度、感情、スタイルを動的に制御できます。たとえば、「少しゆっくりめの優しい話し方」や「興奮した放送風のスタイル」などです。感情豊かなコンテンツ、プロフェッショナルな放送、多彩な声のバリエーションが必要なオーディオブックナレーションに最適です。

cosyvoice-v3.5-plus または cosyvoice-v3.5-flash モデルを使用してください。

推奨モデル

以下の表は、各シナリオに推奨されるモデルを示しています。詳細については、モデルギャラリーをご参照ください。

モデル	シリーズ	API	音声クローニング	音声デザイン	インストラクション制御
`cosyvoice-v3.5-plus`	CosyVoice	WebSocket	対応	対応	対応
`cosyvoice-v3-plus`	CosyVoice	WebSocket	対応	対応	非対応

すべてのモデル

CosyVoice

CosyVoice モデルの一部は、SSML マークアップおよび LaTeX 数式の読み上げをサポートしています。

モデル	API	音声クローニング	音声デザイン	インストラクション制御
`cosyvoice-v3.5-plus`	WebSocket	対応	対応	対応
`cosyvoice-v3.5-flash`	WebSocket	対応	対応	対応
`cosyvoice-v3-plus`	WebSocket	対応	対応	非対応
`cosyvoice-v3-flash`	WebSocket	対応	対応	対応
`cosyvoice-v2`	WebSocket	対応	非対応	非対応

Qwen3-TTS

モデル	API	音声クローニング	音声デザイン	インストラクション制御
`qwen3-tts-flash`	HTTP	非対応	非対応	非対応
`qwen3-tts-flash-2025-11-27`	HTTP	非対応	非対応	非対応
`qwen3-tts-flash-2025-09-18`	HTTP	非対応	非対応	非対応
`qwen3-tts-flash-realtime`	WebSocket	非対応	非対応	非対応
`qwen3-tts-flash-realtime-2025-11-27`	WebSocket	非対応	非対応	非対応
`qwen3-tts-flash-realtime-2025-09-18`	WebSocket	非対応	非対応	非対応
`qwen3-tts-instruct-flash`	HTTP	非対応	非対応	対応
`qwen3-tts-instruct-flash-2026-01-26`	HTTP	非対応	非対応	対応
`qwen3-tts-instruct-flash-realtime`	WebSocket	非対応	非対応	対応
`qwen3-tts-instruct-flash-realtime-2026-01-22`	WebSocket	非対応	非対応	対応
`qwen3-tts-vc-2026-01-22`	HTTP	対応	非対応	非対応
`qwen3-tts-vc-realtime-2026-01-15`	WebSocket	対応	非対応	非対応
`qwen3-tts-vc-realtime-2025-11-27`	WebSocket	対応	非対応	非対応
`qwen3-tts-vd-2026-01-26`	HTTP	非対応	対応	非対応
`qwen3-tts-vd-realtime-2026-01-15`	WebSocket	非対応	対応	非対応
`qwen3-tts-vd-realtime-2025-12-16`	WebSocket	非対応	対応	非対応

Qwen-TTS（レガシー、トークンベース課金）

以下は、トークン単位で課金されるレガシー Qwen-TTS モデルです。Qwen3-TTS に移行済みの場合は、前述の推奨モデルをご確認ください。

モデル	API	説明
`qwen-tts`	HTTP	非ストリーミング合成、トークン単位課金
`qwen-tts-latest`	HTTP	非ストリーミング合成、トークン単位課金
`qwen-tts-2025-05-22`	HTTP	スナップショット版、トークン単位課金
`qwen-tts-2025-04-10`	HTTP	スナップショット版、トークン単位課金
`qwen-tts-realtime`	WebSocket	ストリーミング合成、トークン単位課金
`qwen-tts-realtime-latest`	WebSocket	ストリーミング合成、トークン単位課金
`qwen-tts-realtime-2025-07-15`	WebSocket	スナップショット版、ストリーミング合成、トークン単位課金