音声入力・音声出力を行うユースケース (音声会話、音声翻訳、同時通訳など) に適したモデルを選択してください。
このページでは、スピーチツースピーチのユースケースを扱います。より広範なマルチモーダル機能 (視覚理解、音声およびビデオ分析、コンテンツモデレーション) については、オムニモーダルのドキュメントをご参照ください。
S2S (スピーチツースピーチ) とパイプラインの比較
音声アプリケーションの構築には、2 つのアプローチがあります。
S2S | パイプライン (ASR + LLM + TTS) | |
レイテンシー | 低い:単一モデルのストリーム処理 | 高い:3 段階のシリアル処理 |
音声理解 | エンドツーエンド:トーンや感情を捉え、それに応じて応答します | 処理前にテキストへ変換するため、音声の微妙な手がかりが失われます |
音声のカスタマイズ | システムプロンプトでプリセット音声を選択 | 音声クローニングと音声デザイン (CosyVoice) |
低レイテンシー、音声を考慮した応答、対話型の会話が必要な場合は、S2S を使用してください。
音声をカスタマイズする必要がある場合や、各ステージで最適な ASR (音声認識)、LLM (大規模言語モデル)、TTS (テキスト読み上げ) モデルを選択したい場合は、パイプライン を使用してください。
このページでは、S2S の単一モデルアプローチ (Omni および Livetranslate シリーズ) に焦点を当てます。パイプラインアプローチを選択する場合は、対応するドキュメントから各コンポーネントを選択してください。
リアルタイムモードとファイルモード
リアルタイム (WebSocket):音声アシスタント、コールセンター、同時通訳などのリアルタイムな音声対話に使用します。ストリーミング音声入力および音声出力をサポートします。モデル名には
-realtimeが含まれます。ファイルモード (HTTP):レイテンシーが長くなる代わりに品質が向上するため、動画の吹き替え、ポッドキャストの翻訳、オフラインコンテンツ処理に最適です。ファイルモードは、関数呼び出し、Web 検索、思考モード、動画コンテキストなどのコンパニオン機能もサポートします。詳細については、「S2S 単一モデルアプローチのコンパニオン機能」をご参照ください。
ユースケース別のモデル選択 (S2S 単一モデルアプローチ)
以下のユースケースはすべて S2S 単一モデルアプローチを前提としています。パイプラインアプローチの場合は、上記にリンクされている ASR、LLM、TTS のガイドからコンポーネントを選択してください。
ユースケース | 推奨モデル | API |
音声アシスタントとカスタマーサービスの会話 |
| WebSocket |
コストセンシティブな会話 |
| WebSocket |
同時通訳とライブ翻訳 |
| WebSocket |
動画の吹き替えとポッドキャストの翻訳 |
| HTTP |
動画分析とバッチラベリング (思考モードが必要) |
| HTTP |
S2S シングルモデルアプローチのコンパニオン機能
S2S シングルモデルアプローチでは、Qwen3.5-Omni および Qwen3-Omni モデルが以下の機能を直接提供します。パイプラインアプローチでは、同等の機能は個別のコンポーネント (通常は LLM) から提供する必要があります。
関数呼び出し
モデルが、聞いたり見たりした内容に基づいて、ナレッジベースのクエリ、スケジュールの確認、ワークフローのトリガーなどのアクションを実行できるようにします。Qwen3.5-Omni (WebSocket または HTTP モード) または Qwen3-Omni (HTTP モード) を使用します。
リアルタイムモデルおよび Livetranslate モデルではサポートされていません。
Web 検索
モデルが、時事問題、株価、天気などのトピックに関する質問に答えるために、リアルタイム情報を取得できるようにします。Qwen3.5-Omni を WebSocket または HTTP モード (Plus series および Flash series の両方) で使用します。モデルは、検索を実行するかどうかを自律的に判断します。
Qwen3-Omni-Flash および Livetranslate モデルではサポートされていません。
思考モード
回答品質がレイテンシーよりも重要な場合は、Qwen3-Omni (HTTP モード) を使用します。モデルは応答する前にステップごとに推論するため、動画分析やバッチラベリングに最適です。
思考モードでは音声生成はサポートされていません。
音声翻訳
以下のモデルシリーズは、音声翻訳に対応しています。
Qwen3.5-Livetranslate:64 言語間の翻訳に対応しており、そのうち 33 言語は音声とテキストの両方を出力し、31 言語はテキストのみを出力します。 中国語、英語、フランス語、ドイツ語、ロシア語、日本語、韓国語、スペイン語、ポルトガル語、アラビア語などの主要言語に対応しています。
Qwen3-Livetranslate:中国語の 5 つの方言を含む 22 言語に対応しており、レイテンシーは約 3 秒です。 ファイルモードでは、動画入力を使用して、より正確で文脈を考慮した翻訳を提供します。 これらのうち 7 言語では、出力はテキストのみ (音声なし) です。
Qwen3.5-Omni:29 の出力言語と中国語の 8 つの方言に対応しています。 強力な音声および動画の理解と Web 検索機能を提供します。 システムプロンプトを使用して、用語やドメインコンテキストを注入できます。 リアルタイムモードとファイルモードの両方に対応しています。
Qwen3-Omni-Flash:11 の出力言語と中国語の 8 つの方言に対応しています。 システムプロンプトを使用して、用語やドメインコンテキストを注入できます。 リアルタイムモードとファイルモードの両方に、より低コストで対応しています。
翻訳アプリケーションをすぐに利用開始するには、Livetranslate シリーズを使用してください。 最高の品質と最も幅広い言語カバレッジを求める場合は、Qwen3.5-Omni を使用してください。 コスト重視のシナリオでは、Qwen3-Omni-Flash を使用してください。
推奨モデル
以下の表は、各シリーズの一般的なエントリポイントモデルの一覧です。バージョンリグレッションや安定性のために特定の日付のバージョンを固定するには、以下の「すべてのモデル」をご参照ください。
モデル | API | 入力 | 関数呼び出し | Web 検索 | 思考モード | 翻訳 |
| WebSocket | テキスト、音声、画像 | サポート済み | サポート済み | -- | 29 言語 |
| HTTP | テキスト、音声、画像、動画 | サポート済み | サポート済み | -- | 29 言語 |
| WebSocket | テキスト、音声、画像 | サポート済み | サポート済み | -- | 29 言語 |
| HTTP | テキスト、音声、画像、動画 | サポート済み | サポート済み | -- | 29 言語 |
| WebSocket | テキスト、音声、画像、動画 | -- | -- | -- | 11 言語 |
| HTTP | テキスト、音声、画像、動画 | サポート済み | -- | サポート済み | 11 言語 |
| WebSocket | 音声、画像 | -- | -- | -- | 60 言語 |
| HTTP | 音声、動画 | -- | -- | -- | 18 言語 |
すべてのモデル
Qwen3.5-Omni
モデル | API | 入力 | 関数呼び出し | Web 検索 | 思考モード |
| WebSocket | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| WebSocket | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| WebSocket | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| WebSocket | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | 対応 | -- |
Qwen3-Omni
モデル | API | 入力 | 関数呼び出し | Web 検索 | 思考モード |
| WebSocket | テキスト、オーディオ、画像、動画 | -- | -- | -- |
| WebSocket | テキスト、オーディオ、画像、動画 | -- | -- | -- |
| WebSocket | テキスト、オーディオ、画像、動画 | -- | -- | -- |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | -- | 対応 |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | -- | 対応 |
| HTTP | テキスト、オーディオ、画像、動画 | 対応 | -- | 対応 |
Qwen3.5-Livetranslate
モデル | API | 入力 | 言語 |
| WebSocket | オーディオ | 60 |
| WebSocket | オーディオ | 60 |
Qwen3-Livetranslate
モデル | API | 入力 | 言語 |
| WebSocket | オーディオ | 18 |
| WebSocket | オーディオ | 18 |
| HTTP | オーディオ、動画 | 18 |
| HTTP | オーディオ、動画 | 18 |
レガシーモデル
これらのモデルは更新されなくなりました。新しいプロジェクトでは、Qwen3.5-Omni を使用してください。
モデル | 入力 | API |
| テキスト、オーディオ、画像、動画 | HTTP |
| テキスト、オーディオ、画像、動画 | HTTP |
| テキスト、オーディオ、画像、動画 | HTTP |
| テキスト、オーディオ、画像、動画 | HTTP |
| テキスト、オーディオ | WebSocket |
| テキスト、オーディオ | WebSocket |
| テキスト、オーディオ | WebSocket |
次のステップ
モデルを選択したら、対応する API ドキュメントをご参照ください:
Qwen3.5-Omni および Qwen3-Omni (WebSocket、リアルタイム) :Qwen-Omni-Realtime
Qwen3.5-Omni および Qwen3-Omni (HTTP、ファイル) :非リアルタイム Qwen-Omni
Qwen3.5-Livetranslate (WebSocket、リアルタイム) :Qwen によるリアルタイムの音声と音声動画の翻訳
Qwen3-Livetranslate (HTTP、ファイル) :Qwen による音声ファイルと動画ファイルの翻訳