音声合成、音声クローニング、サウンドデザインに適したモデルを選択します。
以下のトークンベースの音声合成および音声サービス用モデル (旧バージョンを含む) は、シナリオ別にフィルターできます。選択肢を絞り込むために、次の 2 つの質問にお答えください:
カスタム音声が必要ですか、それとも組み込みの音声で十分ですか?
リアルタイムのストリーミング出力が必要ですか、それとも非ストリーミングでも問題ありませんか?
標準音声合成かカスタム音声か
標準音声合成
追加の構成なしで組み込みの音声を使用します。モデルと音声を選択して合成を開始します。
国際
モデル | シリーズ | 主な利点 |
| CosyVoice | 高品質、豊富な音声ライブラリ |
| CosyVoice | 高速合成 |
| Qwen3-TTS | 低レイテンシー、高品質 |
| Qwen3-TTS | 低レイテンシー、高品質 (スナップショットバージョン) |
| Qwen3-TTS | 低レイテンシー、高品質 (スナップショットバージョン) |
| Qwen3-TTS | リアルタイムのストリーミング出力、低レイテンシー |
| Qwen3-TTS | リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン) |
| Qwen3-TTS | リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン) |
| Qwen3-TTS | インストラクションコントロール (話速、感情、スタイル) |
| Qwen3-TTS | インストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン) |
| Qwen3-TTS | リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル) |
| Qwen3-TTS | リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン) |
中国本土
モデル | シリーズ | 主な利点 |
| CosyVoice | 高品質、継続的に更新される音声ライブラリ |
| CosyVoice | 高速合成 |
| CosyVoice | 高品質、豊富な音声ライブラリ |
| CosyVoice | 高速合成 |
| CosyVoice | レガシの高品質合成 |
| CosyVoice | レガシの基本合成 |
| Qwen3-TTS | 低レイテンシー、高品質 |
| Qwen3-TTS | 低レイテンシー、高品質 (スナップショットバージョン) |
| Qwen3-TTS | 低レイテンシー、高品質 (スナップショットバージョン) |
| Qwen3-TTS | リアルタイムのストリーミング出力、低レイテンシー |
| Qwen3-TTS | リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン) |
| Qwen3-TTS | リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン) |
| Qwen3-TTS | インストラクションコントロール (話速、感情、スタイル) |
| Qwen3-TTS | インストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン) |
| Qwen3-TTS | リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル) |
| Qwen3-TTS | リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン) |
| MiniMax | 高忠実度の音声合成 |
| MiniMax | 高忠実度の音声合成 |
| MiniMax | 低レイテンシー、高速合成 |
| MiniMax | 低レイテンシー、高速合成 |
カスタム音声
音声サンプルやテキストによる説明から独自の音声を作成します。
国際
モデル | シリーズ | 主な利点 |
| Qwen3-TTS | 音声サンプルからの音声クローニング |
| Qwen3-TTS | リアルタイムの音声クローニング |
| Qwen3-TTS | リアルタイムの音声クローニング |
| Qwen3-TTS | テキストによる説明からの音声デザイン |
| Qwen3-TTS | リアルタイムの音声デザイン |
| Qwen3-TTS | リアルタイムの音声デザイン |
| Qwen Voice Enrollment | 音声クローニング (音声登録と管理) |
| Qwen Voice Design | 音声デザイン (テキストからの音声作成) |
音声クローニングと音声デザインの比較:音声クローニングは、音声サンプルから特定の声を複製します。音声デザインは、「温かみのある、低音の女性の声」のようなテキストによる説明から新しい声を作成します。ターゲットとなる声がある場合は音声クローニングを使用し、ゼロから声を作成したい場合は音声デザインを使用します。
音声表現のコントロール
柔軟性の高い順に、3 つのオプションが利用可能です:
インストラクションコントロール (
qwen3-tts-instruct-flash、qwen3-tts-instruct-flash-realtime):自然言語を使用して目的の表現スタイルを記述し、話速、感情、スタイルをオンデマンドでコントロールします。最も高い柔軟性を提供します。音声デザイン (
qwen3-tts-vd-*):テキストによる説明からカスタム音声を作成します。これは、音声サンプルを使用せずにブランドボイスを作成したいシナリオに最適です。音声クローニング (
qwen3-tts-vc-*):音声サンプルから既存の声をコピーします。特定の人物の声を複製する必要があるシナリオに適しています。
完全比較
モデル | シリーズ | ストリーミング | カスタム音声 | インストラクションコントロール |
| CosyVoice | サポート | 非サポート | 非サポート |
| CosyVoice | サポート | 非サポート | 非サポート |
| CosyVoice | サポート | 非サポート | 非サポート |
| CosyVoice | サポート | 非サポート | 非サポート |
| CosyVoice | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | 非サポート |
| Qwen3-TTS | サポート | 非サポート | サポート |
| Qwen3-TTS | サポート | 非サポート | サポート |
| Qwen3-TTS | サポート | 非サポート | サポート |
| Qwen3-TTS | サポート | 非サポート | サポート |
| 音声クローニング | 非サポート | サポート | 非サポート |
| 音声クローニング | サポート | サポート | 非サポート |
| 音声クローニング | サポート | サポート | 非サポート |
| 音声デザイン | 非サポート | サポート | 非サポート |
| 音声デザイン | サポート | サポート | 非サポート |
| 音声デザイン | サポート | サポート | 非サポート |
| Qwen-TTS (レガシ) | 非サポート (全文生成) | 非サポート | 非サポート |
| Qwen-TTS (レガシ) | 非サポート (全文生成) | 非サポート | 非サポート |
| Qwen-TTS (レガシ) | 非サポート (全文生成) | 非サポート | 非サポート |
| Qwen-TTS (レガシ) | 非サポート (全文生成) | 非サポート | 非サポート |
| Qwen-TTS (レガシ) | サポート | 非サポート | 非サポート |
| Qwen-TTS (レガシ) | サポート | 非サポート | 非サポート |
| Qwen-TTS (レガシ) | サポート | 非サポート | 非サポート |
| 音声サービス | N/A | サポート (音声登録) | 非サポート |
| 音声サービス | N/A | サポート (音声デザイン) | 非サポート |
レガシモデル (Qwen-TTS、トークンベースの課金)
以下のレガシ Qwen-TTS モデルは、トークンベースの課金を使用し、HTTP または WebSocket 経由でアクセスできます。Qwen3-TTS に移行済みの場合は、前述の標準音声合成モデルを使用してください。
国際
モデル | アクセス方法 | 説明 |
| HTTP | 非ストリーミング合成、トークンベースの課金 |
| HTTP | 非ストリーミング合成、トークンベースの課金 |
| HTTP | スナップショットバージョン、トークンベースの課金 |
| HTTP | スナップショットバージョン、トークンベースの課金 |
| WebSocket | ストリーミング合成、トークンベースの課金 |
| WebSocket | ストリーミング合成、トークンベースの課金 |
| WebSocket | スナップショットバージョン、ストリーミング合成、トークンベースの課金 |