スピーチツースピーチ - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

音声入力・音声出力を行うユースケース (音声会話、音声翻訳、同時通訳など) に適したモデルを選択してください。

このページでは、スピーチツースピーチのユースケースを扱います。より広範なマルチモーダル機能 (視覚理解、音声およびビデオ分析、コンテンツモデレーション) については、オムニモーダルのドキュメントをご参照ください。

S2S (スピーチツースピーチ) とパイプラインの比較

音声アプリケーションの構築には、2 つのアプローチがあります。

	S2S	パイプライン (ASR + LLM + TTS)
レイテンシー	低い：単一モデルのストリーム処理	高い：3 段階のシリアル処理
音声理解	エンドツーエンド：トーンや感情を捉え、それに応じて応答します	処理前にテキストへ変換するため、音声の微妙な手がかりが失われます
音声のカスタマイズ	システムプロンプトでプリセット音声を選択	音声クローニングと音声デザイン (CosyVoice)

低レイテンシー、音声を考慮した応答、対話型の会話が必要な場合は、S2S を使用してください。
音声をカスタマイズする必要がある場合や、各ステージで最適な ASR (音声認識)、LLM (大規模言語モデル)、TTS (テキスト読み上げ) モデルを選択したい場合は、パイプライン を使用してください。

このページでは、S2S の単一モデルアプローチ (Omni および Livetranslate シリーズ) に焦点を当てます。パイプラインアプローチを選択する場合は、対応するドキュメントから各コンポーネントを選択してください。

ASR (音声認識)： 音声テキスト変換
LLM (大規模言語モデル)： テキスト生成
TTS (テキスト読み上げ)： 音声合成

リアルタイムモードとファイルモード

リアルタイム (WebSocket)：音声アシスタント、コールセンター、同時通訳などのリアルタイムな音声対話に使用します。ストリーミング音声入力および音声出力をサポートします。モデル名には -realtime が含まれます。
ファイルモード (HTTP)：レイテンシーが長くなる代わりに品質が向上するため、動画の吹き替え、ポッドキャストの翻訳、オフラインコンテンツ処理に最適です。ファイルモードは、関数呼び出し、Web 検索、思考モード、動画コンテキストなどのコンパニオン機能もサポートします。詳細については、「S2S 単一モデルアプローチのコンパニオン機能」をご参照ください。

ユースケース別のモデル選択 (S2S 単一モデルアプローチ)

以下のユースケースはすべて S2S 単一モデルアプローチを前提としています。パイプラインアプローチの場合は、上記にリンクされている ASR、LLM、TTS のガイドからコンポーネントを選択してください。

ユースケース	推奨モデル	API
音声アシスタントとカスタマーサービスの会話	`qwen3.5-omni-plus-realtime`	WebSocket
コストセンシティブな会話	`qwen3.5-omni-flash-realtime`	WebSocket
同時通訳とライブ翻訳	`qwen3.5-livetranslate-flash-realtime`	WebSocket
動画の吹き替えとポッドキャストの翻訳	`qwen3-omni-flash`	HTTP
動画分析とバッチラベリング (思考モードが必要)	`qwen3-omni-flash`	HTTP

S2S シングルモデルアプローチのコンパニオン機能

S2S シングルモデルアプローチでは、Qwen3.5-Omni および Qwen3-Omni モデルが以下の機能を直接提供します。パイプラインアプローチでは、同等の機能は個別のコンポーネント (通常は LLM) から提供する必要があります。

関数呼び出し

モデルが、聞いたり見たりした内容に基づいて、ナレッジベースのクエリ、スケジュールの確認、ワークフローのトリガーなどのアクションを実行できるようにします。Qwen3.5-Omni (WebSocket または HTTP モード) または Qwen3-Omni (HTTP モード) を使用します。

リアルタイムモデルおよび Livetranslate モデルではサポートされていません。

Web 検索

モデルが、時事問題、株価、天気などのトピックに関する質問に答えるために、リアルタイム情報を取得できるようにします。Qwen3.5-Omni を WebSocket または HTTP モード (Plus series および Flash series の両方) で使用します。モデルは、検索を実行するかどうかを自律的に判断します。

Qwen3-Omni-Flash および Livetranslate モデルではサポートされていません。

思考モード

回答品質がレイテンシーよりも重要な場合は、Qwen3-Omni (HTTP モード) を使用します。モデルは応答する前にステップごとに推論するため、動画分析やバッチラベリングに最適です。

思考モードでは音声生成はサポートされていません。

音声翻訳

以下のモデルシリーズは、音声翻訳に対応しています。

Qwen3.5-Livetranslate：64 言語間の翻訳に対応しており、そのうち 33 言語は音声とテキストの両方を出力し、31 言語はテキストのみを出力します。中国語、英語、フランス語、ドイツ語、ロシア語、日本語、韓国語、スペイン語、ポルトガル語、アラビア語などの主要言語に対応しています。
Qwen3-Livetranslate：中国語の 5 つの方言を含む 22 言語に対応しており、レイテンシーは約 3 秒です。ファイルモードでは、動画入力を使用して、より正確で文脈を考慮した翻訳を提供します。これらのうち 7 言語では、出力はテキストのみ (音声なし) です。
Qwen3.5-Omni：29 の出力言語と中国語の 8 つの方言に対応しています。強力な音声および動画の理解と Web 検索機能を提供します。システムプロンプトを使用して、用語やドメインコンテキストを注入できます。リアルタイムモードとファイルモードの両方に対応しています。
Qwen3-Omni-Flash：11 の出力言語と中国語の 8 つの方言に対応しています。システムプロンプトを使用して、用語やドメインコンテキストを注入できます。リアルタイムモードとファイルモードの両方に、より低コストで対応しています。

説明

翻訳アプリケーションをすぐに利用開始するには、Livetranslate シリーズを使用してください。最高の品質と最も幅広い言語カバレッジを求める場合は、Qwen3.5-Omni を使用してください。コスト重視のシナリオでは、Qwen3-Omni-Flash を使用してください。

対応言語

言語	Qwen3.5-Livetranslate	Qwen3-Livetranslate	Qwen3.5-Omni	Qwen3-Omni-Flash
英語	サポート済み	サポート済み	サポート済み	サポート済み
中国語 (標準語)	サポート済み	サポート済み	サポート済み	サポート済み
広東語	テキストのみ	サポート済み	サポート済み	サポート済み
四川方言	サポート済み	サポート済み	サポート済み	サポート済み
上海語	サポート済み	サポート済み	サポート済み	サポート済み
北京方言	サポート済み	サポート済み	サポート済み	サポート済み
天津方言	サポート済み	サポート済み	サポート済み	サポート済み
南京方言	--	--	サポート済み	サポート済み
陝西方言	--	--	サポート済み	サポート済み
閩南語	--	--	サポート済み	サポート済み
フランス語	サポート済み	サポート済み	サポート済み	サポート済み
ドイツ語	サポート済み	サポート済み	サポート済み	サポート済み
ロシア語	サポート済み	サポート済み	サポート済み	サポート済み
イタリア語	サポート済み	サポート済み	サポート済み	サポート済み
スペイン語	サポート済み	サポート済み	サポート済み	サポート済み
ポルトガル語	サポート済み	サポート済み	サポート済み	サポート済み
日本語	サポート済み	サポート済み	サポート済み	サポート済み
韓国語	サポート済み	サポート済み	サポート済み	サポート済み
タイ語	サポート済み	テキストのみ	サポート済み	サポート済み
インドネシア語	サポート済み	テキストのみ	サポート済み	--
ベトナム語	サポート済み	テキストのみ	サポート済み	--
アラビア語	サポート済み	テキストのみ	サポート済み	--
ヒンディー語	サポート済み	テキストのみ	サポート済み	--
トルコ語	サポート済み	テキストのみ	サポート済み	--
フィンランド語	サポート済み	--	サポート済み	--
ポーランド語	サポート済み	--	サポート済み	--
オランダ語	サポート済み	--	サポート済み	--
チェコ語	サポート済み	--	サポート済み	--
ウルドゥー語	サポート済み	--	サポート済み	--
タガログ語	サポート済み	--	サポート済み	--
スウェーデン語	サポート済み	--	サポート済み	--
デンマーク語	サポート済み	--	サポート済み	--
ヘブライ語	サポート済み	--	サポート済み	--
アイスランド語	サポート済み	--	サポート済み	--
マレー語	サポート済み	--	サポート済み	--
ノルウェー語	サポート済み	--	サポート済み	--
ペルシャ語	サポート済み	--	サポート済み	--
ギリシャ語	テキストのみ	テキストのみ	--	--
アフリカーンス語	テキストのみ	--	--	--
アストゥリアス語	テキストのみ	--	--	--
ベラルーシ語	テキストのみ	--	--	--
ブルガリア語	テキストのみ	--	--	--
ベンガル語	テキストのみ	--	--	--
ボスニア語	テキストのみ	--	--	--
カタルーニャ語	テキストのみ	--	--	--
セブアノ語	テキストのみ	--	--	--
エストニア語	テキストのみ	--	--	--
ガリシア語	テキストのみ	--	--	--
グジャラート語	テキストのみ	--	--	--
クロアチア語	テキストのみ	--	--	--
ハンガリー語	テキストのみ	--	--	--
ジャワ語	テキストのみ	--	--	--
カザフ語	テキストのみ	--	--	--
カンナダ語	テキストのみ	--	--	--
キルギス語	テキストのみ	--	--	--
ラトビア語	テキストのみ	--	--	--
マケドニア語	テキストのみ	--	--	--
マラヤーラム語	テキストのみ	--	--	--
マラーティー語	テキストのみ	--	--	--
パンジャブ語	テキストのみ	--	--	--
ルーマニア語	テキストのみ	--	--	--
スロバキア語	テキストのみ	--	--	--
スロベニア語	テキストのみ	--	--	--
スワヒリ語	テキストのみ	--	--	--
タジク語	テキストのみ	--	--	--
アゼルバイジャン語	テキストのみ	--	--	--
ウクライナ語	テキストのみ	--	--	--

「サポート済み」は、モデルが音声とテキストの両方の出力を生成することを示します。「テキストのみ」は、モデルがテキスト出力のみを生成し、音声は生成しないことを示します。

Qwen3.5-Omni は、113 の入力言語と方言に対応しています。

Qwen3.5-Livetranslate は、64 言語に対応しています (うち 33 言語は音声とテキストの両方、31 言語はテキストのみ)。

レガシーな qwen-omni-turbo モデルは、中国語と英語にのみ対応しています。

推奨モデル

以下の表は、各シリーズの一般的なエントリポイントモデルの一覧です。バージョンリグレッションや安定性のために特定の日付のバージョンを固定するには、以下の「すべてのモデル」をご参照ください。

モデル	API	入力	関数呼び出し	Web 検索	思考モード	翻訳
`qwen3.5-omni-plus-realtime`	WebSocket	テキスト、音声、画像	サポート済み	サポート済み	--	29 言語
`qwen3.5-omni-plus`	HTTP	テキスト、音声、画像、動画	サポート済み	サポート済み	--	29 言語
`qwen3.5-omni-flash-realtime`	WebSocket	テキスト、音声、画像	サポート済み	サポート済み	--	29 言語
`qwen3.5-omni-flash`	HTTP	テキスト、音声、画像、動画	サポート済み	サポート済み	--	29 言語
`qwen3-omni-flash-realtime`	WebSocket	テキスト、音声、画像、動画	--	--	--	11 言語
`qwen3-omni-flash`	HTTP	テキスト、音声、画像、動画	サポート済み	--	サポート済み	11 言語
`qwen3.5-livetranslate-flash-realtime`	WebSocket	音声、画像	--	--	--	60 言語
`qwen3-livetranslate-flash`	HTTP	音声、動画	--	--	--	18 言語

すべてのモデル

Qwen3.5-Omni

モデル	API	入力	関数呼び出し	Web 検索	思考モード
`qwen3.5-omni-plus-realtime`	WebSocket	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-plus-realtime-2026-03-15`	WebSocket	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-plus`	HTTP	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-plus-2026-03-15`	HTTP	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-flash-realtime`	WebSocket	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-flash-realtime-2026-03-15`	WebSocket	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-flash`	HTTP	テキスト、オーディオ、画像、動画	対応	対応	--
`qwen3.5-omni-flash-2026-03-15`	HTTP	テキスト、オーディオ、画像、動画	対応	対応	--

Qwen3-Omni

モデル	API	入力	関数呼び出し	Web 検索	思考モード
`qwen3-omni-flash-realtime`	WebSocket	テキスト、オーディオ、画像、動画	--	--	--
`qwen3-omni-flash-realtime-2025-12-01`	WebSocket	テキスト、オーディオ、画像、動画	--	--	--
`qwen3-omni-flash-realtime-2025-09-15`	WebSocket	テキスト、オーディオ、画像、動画	--	--	--
`qwen3-omni-flash`	HTTP	テキスト、オーディオ、画像、動画	対応	--	対応
`qwen3-omni-flash-2025-12-01`	HTTP	テキスト、オーディオ、画像、動画	対応	--	対応
`qwen3-omni-flash-2025-09-15`	HTTP	テキスト、オーディオ、画像、動画	対応	--	対応

Qwen3.5-Livetranslate

モデル	API	入力	言語
`qwen3.5-livetranslate-flash-realtime`	WebSocket	オーディオ	60
`qwen3.5-livetranslate-flash-realtime-2026-05-19`	WebSocket	オーディオ	60

Qwen3-Livetranslate

モデル	API	入力	言語
`qwen3-livetranslate-flash-realtime`	WebSocket	オーディオ	18
`qwen3-livetranslate-flash-realtime-2025-09-22`	WebSocket	オーディオ	18
`qwen3-livetranslate-flash`	HTTP	オーディオ、動画	18
`qwen3-livetranslate-flash-2025-12-01`	HTTP	オーディオ、動画	18

レガシーモデル

これらのモデルは更新されなくなりました。新しいプロジェクトでは、Qwen3.5-Omni を使用してください。

モデル	入力	API
`qwen2.5-omni-7b`	テキスト、オーディオ、画像、動画	HTTP
`qwen-omni-turbo`	テキスト、オーディオ、画像、動画	HTTP
`qwen-omni-turbo-latest`	テキスト、オーディオ、画像、動画	HTTP
`qwen-omni-turbo-2025-03-26`	テキスト、オーディオ、画像、動画	HTTP
`qwen-omni-turbo-realtime`	テキスト、オーディオ	WebSocket
`qwen-omni-turbo-realtime-latest`	テキスト、オーディオ	WebSocket
`qwen-omni-turbo-realtime-2025-05-08`	テキスト、オーディオ	WebSocket

次のステップ

モデルを選択したら、対応する API ドキュメントをご参照ください：

Qwen3.5-Omni および Qwen3-Omni (WebSocket、リアルタイム) ：Qwen-Omni-Realtime
Qwen3.5-Omni および Qwen3-Omni (HTTP、ファイル) ：非リアルタイム Qwen-Omni
Qwen3.5-Livetranslate (WebSocket、リアルタイム) ：Qwen によるリアルタイムの音声と音声動画の翻訳
Qwen3-Livetranslate (HTTP、ファイル) ：Qwen による音声ファイルと動画ファイルの翻訳