すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:音声合成モデル

最終更新日:Apr 23, 2026

音声合成、音声クローニング、サウンドデザインに適したモデルを選択します。

以下のトークンベースの音声合成および音声サービス用モデル (旧バージョンを含む) は、シナリオ別にフィルターできます。選択肢を絞り込むために、次の 2 つの質問にお答えください:

  1. カスタム音声が必要ですか、それとも組み込みの音声で十分ですか?

  2. リアルタイムのストリーミング出力が必要ですか、それとも非ストリーミングでも問題ありませんか?

標準音声合成かカスタム音声か

標準音声合成

追加の構成なしで組み込みの音声を使用します。モデルと音声を選択して合成を開始します。

国際

モデル

シリーズ

主な利点

cosyvoice-v3-plus

CosyVoice

高品質、豊富な音声ライブラリ

cosyvoice-v3-flash

CosyVoice

高速合成

qwen3-tts-flash

Qwen3-TTS

低レイテンシー、高品質

qwen3-tts-flash-2025-11-27

Qwen3-TTS

低レイテンシー、高品質 (スナップショットバージョン)

qwen3-tts-flash-2025-09-18

Qwen3-TTS

低レイテンシー、高品質 (スナップショットバージョン)

qwen3-tts-flash-realtime

Qwen3-TTS

リアルタイムのストリーミング出力、低レイテンシー

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン)

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン)

qwen3-tts-instruct-flash

Qwen3-TTS

インストラクションコントロール (話速、感情、スタイル)

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

インストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン)

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル)

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン)

中国本土

モデル

シリーズ

主な利点

cosyvoice-v3.5-plus

CosyVoice

高品質、継続的に更新される音声ライブラリ

cosyvoice-v3.5-flash

CosyVoice

高速合成

cosyvoice-v3-plus

CosyVoice

高品質、豊富な音声ライブラリ

cosyvoice-v3-flash

CosyVoice

高速合成

cosyvoice-v2

CosyVoice

レガシの高品質合成

cosyvoice-v1

CosyVoice

レガシの基本合成

qwen3-tts-flash

Qwen3-TTS

低レイテンシー、高品質

qwen3-tts-flash-2025-11-27

Qwen3-TTS

低レイテンシー、高品質 (スナップショットバージョン)

qwen3-tts-flash-2025-09-18

Qwen3-TTS

低レイテンシー、高品質 (スナップショットバージョン)

qwen3-tts-flash-realtime

Qwen3-TTS

リアルタイムのストリーミング出力、低レイテンシー

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン)

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

リアルタイムのストリーミング出力、低レイテンシー (スナップショットバージョン)

qwen3-tts-instruct-flash

Qwen3-TTS

インストラクションコントロール (話速、感情、スタイル)

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

インストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン)

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル)

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

リアルタイムのストリーミング出力とインストラクションコントロール (話速、感情、スタイル) (スナップショットバージョン)

MiniMax/speech-2.8-hd

MiniMax

高忠実度の音声合成

MiniMax/speech-02-hd

MiniMax

高忠実度の音声合成

MiniMax/speech-2.8-turbo

MiniMax

低レイテンシー、高速合成

MiniMax/speech-02-turbo

MiniMax

低レイテンシー、高速合成

カスタム音声

音声サンプルやテキストによる説明から独自の音声を作成します。

国際

モデル

シリーズ

主な利点

qwen3-tts-vc-2026-01-22

Qwen3-TTS

音声サンプルからの音声クローニング

qwen3-tts-vc-realtime-2026-01-15

Qwen3-TTS

リアルタイムの音声クローニング

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS

リアルタイムの音声クローニング

qwen3-tts-vd-2026-01-26

Qwen3-TTS

テキストによる説明からの音声デザイン

qwen3-tts-vd-realtime-2026-01-15

Qwen3-TTS

リアルタイムの音声デザイン

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS

リアルタイムの音声デザイン

qwen-voice-enrollment

Qwen Voice Enrollment

音声クローニング (音声登録と管理)

qwen-voice-design

Qwen Voice Design

音声デザイン (テキストからの音声作成)

説明

音声クローニングと音声デザインの比較:音声クローニングは、音声サンプルから特定の声を複製します。音声デザインは、「温かみのある、低音の女性の声」のようなテキストによる説明から新しい声を作成します。ターゲットとなる声がある場合は音声クローニングを使用し、ゼロから声を作成したい場合は音声デザインを使用します。

音声表現のコントロール

柔軟性の高い順に、3 つのオプションが利用可能です:

  1. インストラクションコントロール (qwen3-tts-instruct-flashqwen3-tts-instruct-flash-realtime):自然言語を使用して目的の表現スタイルを記述し、話速、感情、スタイルをオンデマンドでコントロールします。最も高い柔軟性を提供します。

  2. 音声デザイン (qwen3-tts-vd-*):テキストによる説明からカスタム音声を作成します。これは、音声サンプルを使用せずにブランドボイスを作成したいシナリオに最適です。

  3. 音声クローニング (qwen3-tts-vc-*):音声サンプルから既存の声をコピーします。特定の人物の声を複製する必要があるシナリオに適しています。

完全比較

モデル

シリーズ

ストリーミング

カスタム音声

インストラクションコントロール

cosyvoice-v3.5-plus

CosyVoice

サポート

非サポート

非サポート

cosyvoice-v3.5-flash

CosyVoice

サポート

非サポート

非サポート

cosyvoice-v3-plus

CosyVoice

サポート

非サポート

非サポート

cosyvoice-v3-flash

CosyVoice

サポート

非サポート

非サポート

cosyvoice-v2

CosyVoice

サポート

非サポート

非サポート

qwen3-tts-flash

Qwen3-TTS

サポート

非サポート

非サポート

qwen3-tts-flash-2025-11-27

Qwen3-TTS

サポート

非サポート

非サポート

qwen3-tts-flash-2025-09-18

Qwen3-TTS

サポート

非サポート

非サポート

qwen3-tts-flash-realtime

Qwen3-TTS

サポート

非サポート

非サポート

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

サポート

非サポート

非サポート

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

サポート

非サポート

非サポート

qwen3-tts-instruct-flash

Qwen3-TTS

サポート

非サポート

サポート

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

サポート

非サポート

サポート

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

サポート

非サポート

サポート

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

サポート

非サポート

サポート

qwen3-tts-vc-2026-01-22

音声クローニング

非サポート

サポート

非サポート

qwen3-tts-vc-realtime-2026-01-15

音声クローニング

サポート

サポート

非サポート

qwen3-tts-vc-realtime-2025-11-27

音声クローニング

サポート

サポート

非サポート

qwen3-tts-vd-2026-01-26

音声デザイン

非サポート

サポート

非サポート

qwen3-tts-vd-realtime-2026-01-15

音声デザイン

サポート

サポート

非サポート

qwen3-tts-vd-realtime-2025-12-16

音声デザイン

サポート

サポート

非サポート

qwen-tts

Qwen-TTS (レガシ)

非サポート (全文生成)

非サポート

非サポート

qwen-tts-latest

Qwen-TTS (レガシ)

非サポート (全文生成)

非サポート

非サポート

qwen-tts-2025-05-22

Qwen-TTS (レガシ)

非サポート (全文生成)

非サポート

非サポート

qwen-tts-2025-04-10

Qwen-TTS (レガシ)

非サポート (全文生成)

非サポート

非サポート

qwen-tts-realtime

Qwen-TTS (レガシ)

サポート

非サポート

非サポート

qwen-tts-realtime-latest

Qwen-TTS (レガシ)

サポート

非サポート

非サポート

qwen-tts-realtime-2025-07-15

Qwen-TTS (レガシ)

サポート

非サポート

非サポート

qwen-voice-enrollment

音声サービス

N/A

サポート (音声登録)

非サポート

qwen-voice-design

音声サービス

N/A

サポート (音声デザイン)

非サポート

レガシモデル (Qwen-TTS、トークンベースの課金)

以下のレガシ Qwen-TTS モデルは、トークンベースの課金を使用し、HTTP または WebSocket 経由でアクセスできます。Qwen3-TTS に移行済みの場合は、前述の標準音声合成モデルを使用してください。

国際

モデル

アクセス方法

説明

qwen-tts

HTTP

非ストリーミング合成、トークンベースの課金

qwen-tts-latest

HTTP

非ストリーミング合成、トークンベースの課金

qwen-tts-2025-05-22

HTTP

スナップショットバージョン、トークンベースの課金

qwen-tts-2025-04-10

HTTP

スナップショットバージョン、トークンベースの課金

qwen-tts-realtime

WebSocket

ストリーミング合成、トークンベースの課金

qwen-tts-realtime-latest

WebSocket

ストリーミング合成、トークンベースの課金

qwen-tts-realtime-2025-07-15

WebSocket

スナップショットバージョン、ストリーミング合成、トークンベースの課金