すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:スピーチツースピーチ

最終更新日:May 23, 2026

音声入力・音声出力を行うユースケース (音声会話、音声翻訳、同時通訳など) に適したモデルを選択してください。

このページでは、スピーチツースピーチのユースケースを扱います。より広範なマルチモーダル機能 (視覚理解、音声およびビデオ分析、コンテンツモデレーション) については、オムニモーダルのドキュメントをご参照ください。

S2S (スピーチツースピーチ) とパイプラインの比較

音声アプリケーションの構築には、2 つのアプローチがあります。

S2S

パイプライン (ASR + LLM + TTS)

レイテンシー

低い:単一モデルのストリーム処理

高い:3 段階のシリアル処理

音声理解

エンドツーエンド:トーンや感情を捉え、それに応じて応答します

処理前にテキストへ変換するため、音声の微妙な手がかりが失われます

音声のカスタマイズ

システムプロンプトでプリセット音声を選択

音声クローニングと音声デザイン (CosyVoice)

  • 低レイテンシー、音声を考慮した応答、対話型の会話が必要な場合は、S2S を使用してください。

  • 音声をカスタマイズする必要がある場合や、各ステージで最適な ASR (音声認識)、LLM (大規模言語モデル)、TTS (テキスト読み上げ) モデルを選択したい場合は、パイプライン を使用してください。

このページでは、S2S の単一モデルアプローチ (Omni および Livetranslate シリーズ) に焦点を当てます。パイプラインアプローチを選択する場合は、対応するドキュメントから各コンポーネントを選択してください。

リアルタイムモードとファイルモード

  • リアルタイム (WebSocket):音声アシスタント、コールセンター、同時通訳などのリアルタイムな音声対話に使用します。ストリーミング音声入力および音声出力をサポートします。モデル名には -realtime が含まれます。

  • ファイルモード (HTTP):レイテンシーが長くなる代わりに品質が向上するため、動画の吹き替え、ポッドキャストの翻訳、オフラインコンテンツ処理に最適です。ファイルモードは、関数呼び出し、Web 検索、思考モード、動画コンテキストなどのコンパニオン機能もサポートします。詳細については、「S2S 単一モデルアプローチのコンパニオン機能」をご参照ください。

ユースケース別のモデル選択 (S2S 単一モデルアプローチ)

以下のユースケースはすべて S2S 単一モデルアプローチを前提としています。パイプラインアプローチの場合は、上記にリンクされている ASR、LLM、TTS のガイドからコンポーネントを選択してください。

ユースケース

推奨モデル

API

音声アシスタントとカスタマーサービスの会話

qwen3.5-omni-plus-realtime

WebSocket

コストセンシティブな会話

qwen3.5-omni-flash-realtime

WebSocket

同時通訳とライブ翻訳

qwen3.5-livetranslate-flash-realtime

WebSocket

動画の吹き替えとポッドキャストの翻訳

qwen3-omni-flash

HTTP

動画分析とバッチラベリング (思考モードが必要)

qwen3-omni-flash

HTTP

S2S シングルモデルアプローチのコンパニオン機能

S2S シングルモデルアプローチでは、Qwen3.5-Omni および Qwen3-Omni モデルが以下の機能を直接提供します。パイプラインアプローチでは、同等の機能は個別のコンポーネント (通常は LLM) から提供する必要があります。

関数呼び出し

モデルが、聞いたり見たりした内容に基づいて、ナレッジベースのクエリ、スケジュールの確認、ワークフローのトリガーなどのアクションを実行できるようにします。Qwen3.5-Omni (WebSocket または HTTP モード) または Qwen3-Omni (HTTP モード) を使用します。

リアルタイムモデルおよび Livetranslate モデルではサポートされていません。

Web 検索

モデルが、時事問題、株価、天気などのトピックに関する質問に答えるために、リアルタイム情報を取得できるようにします。Qwen3.5-Omni を WebSocket または HTTP モード (Plus series および Flash series の両方) で使用します。モデルは、検索を実行するかどうかを自律的に判断します。

Qwen3-Omni-Flash および Livetranslate モデルではサポートされていません。

思考モード

回答品質がレイテンシーよりも重要な場合は、Qwen3-Omni (HTTP モード) を使用します。モデルは応答する前にステップごとに推論するため、動画分析やバッチラベリングに最適です。

思考モードでは音声生成はサポートされていません。

音声翻訳

以下のモデルシリーズは、音声翻訳に対応しています。

  • Qwen3.5-Livetranslate:64 言語間の翻訳に対応しており、そのうち 33 言語は音声とテキストの両方を出力し、31 言語はテキストのみを出力します。 中国語、英語、フランス語、ドイツ語、ロシア語、日本語、韓国語、スペイン語、ポルトガル語、アラビア語などの主要言語に対応しています。

  • Qwen3-Livetranslate:中国語の 5 つの方言を含む 22 言語に対応しており、レイテンシーは約 3 秒です。 ファイルモードでは、動画入力を使用して、より正確で文脈を考慮した翻訳を提供します。 これらのうち 7 言語では、出力はテキストのみ (音声なし) です。

  • Qwen3.5-Omni:29 の出力言語と中国語の 8 つの方言に対応しています。 強力な音声および動画の理解と Web 検索機能を提供します。 システムプロンプトを使用して、用語やドメインコンテキストを注入できます。 リアルタイムモードとファイルモードの両方に対応しています。

  • Qwen3-Omni-Flash:11 の出力言語と中国語の 8 つの方言に対応しています。 システムプロンプトを使用して、用語やドメインコンテキストを注入できます。 リアルタイムモードとファイルモードの両方に、より低コストで対応しています。

説明

翻訳アプリケーションをすぐに利用開始するには、Livetranslate シリーズを使用してください。 最高の品質と最も幅広い言語カバレッジを求める場合は、Qwen3.5-Omni を使用してください。 コスト重視のシナリオでは、Qwen3-Omni-Flash を使用してください。

対応言語

言語

Qwen3.5-Livetranslate

Qwen3-Livetranslate

Qwen3.5-Omni

Qwen3-Omni-Flash

英語

サポート済み

サポート済み

サポート済み

サポート済み

中国語 (標準語)

サポート済み

サポート済み

サポート済み

サポート済み

広東語

テキストのみ

サポート済み

サポート済み

サポート済み

四川方言

サポート済み

サポート済み

サポート済み

サポート済み

上海語

サポート済み

サポート済み

サポート済み

サポート済み

北京方言

サポート済み

サポート済み

サポート済み

サポート済み

天津方言

サポート済み

サポート済み

サポート済み

サポート済み

南京方言

--

--

サポート済み

サポート済み

陝西方言

--

--

サポート済み

サポート済み

閩南語

--

--

サポート済み

サポート済み

フランス語

サポート済み

サポート済み

サポート済み

サポート済み

ドイツ語

サポート済み

サポート済み

サポート済み

サポート済み

ロシア語

サポート済み

サポート済み

サポート済み

サポート済み

イタリア語

サポート済み

サポート済み

サポート済み

サポート済み

スペイン語

サポート済み

サポート済み

サポート済み

サポート済み

ポルトガル語

サポート済み

サポート済み

サポート済み

サポート済み

日本語

サポート済み

サポート済み

サポート済み

サポート済み

韓国語

サポート済み

サポート済み

サポート済み

サポート済み

タイ語

サポート済み

テキストのみ

サポート済み

サポート済み

インドネシア語

サポート済み

テキストのみ

サポート済み

--

ベトナム語

サポート済み

テキストのみ

サポート済み

--

アラビア語

サポート済み

テキストのみ

サポート済み

--

ヒンディー語

サポート済み

テキストのみ

サポート済み

--

トルコ語

サポート済み

テキストのみ

サポート済み

--

フィンランド語

サポート済み

--

サポート済み

--

ポーランド語

サポート済み

--

サポート済み

--

オランダ語

サポート済み

--

サポート済み

--

チェコ語

サポート済み

--

サポート済み

--

ウルドゥー語

サポート済み

--

サポート済み

--

タガログ語

サポート済み

--

サポート済み

--

スウェーデン語

サポート済み

--

サポート済み

--

デンマーク語

サポート済み

--

サポート済み

--

ヘブライ語

サポート済み

--

サポート済み

--

アイスランド語

サポート済み

--

サポート済み

--

マレー語

サポート済み

--

サポート済み

--

ノルウェー語

サポート済み

--

サポート済み

--

ペルシャ語

サポート済み

--

サポート済み

--

ギリシャ語

テキストのみ

テキストのみ

--

--

アフリカーンス語

テキストのみ

--

--

--

アストゥリアス語

テキストのみ

--

--

--

ベラルーシ語

テキストのみ

--

--

--

ブルガリア語

テキストのみ

--

--

--

ベンガル語

テキストのみ

--

--

--

ボスニア語

テキストのみ

--

--

--

カタルーニャ語

テキストのみ

--

--

--

セブアノ語

テキストのみ

--

--

--

エストニア語

テキストのみ

--

--

--

ガリシア語

テキストのみ

--

--

--

グジャラート語

テキストのみ

--

--

--

クロアチア語

テキストのみ

--

--

--

ハンガリー語

テキストのみ

--

--

--

ジャワ語

テキストのみ

--

--

--

カザフ語

テキストのみ

--

--

--

カンナダ語

テキストのみ

--

--

--

キルギス語

テキストのみ

--

--

--

ラトビア語

テキストのみ

--

--

--

マケドニア語

テキストのみ

--

--

--

マラヤーラム語

テキストのみ

--

--

--

マラーティー語

テキストのみ

--

--

--

パンジャブ語

テキストのみ

--

--

--

ルーマニア語

テキストのみ

--

--

--

スロバキア語

テキストのみ

--

--

--

スロベニア語

テキストのみ

--

--

--

スワヒリ語

テキストのみ

--

--

--

タジク語

テキストのみ

--

--

--

アゼルバイジャン語

テキストのみ

--

--

--

ウクライナ語

テキストのみ

--

--

--

「サポート済み」は、モデルが音声とテキストの両方の出力を生成することを示します。「テキストのみ」は、モデルがテキスト出力のみを生成し、音声は生成しないことを示します。

Qwen3.5-Omni は、113 の入力言語と方言に対応しています。

Qwen3.5-Livetranslate は、64 言語に対応しています (うち 33 言語は音声とテキストの両方、31 言語はテキストのみ)。

レガシーな qwen-omni-turbo モデルは、中国語と英語にのみ対応しています。

推奨モデル

以下の表は、各シリーズの一般的なエントリポイントモデルの一覧です。バージョンリグレッションや安定性のために特定の日付のバージョンを固定するには、以下の「すべてのモデル」をご参照ください。

モデル

API

入力

関数呼び出し

Web 検索

思考モード

翻訳

qwen3.5-omni-plus-realtime

WebSocket

テキスト、音声、画像

サポート済み

サポート済み

--

29 言語

qwen3.5-omni-plus

HTTP

テキスト、音声、画像、動画

サポート済み

サポート済み

--

29 言語

qwen3.5-omni-flash-realtime

WebSocket

テキスト、音声、画像

サポート済み

サポート済み

--

29 言語

qwen3.5-omni-flash

HTTP

テキスト、音声、画像、動画

サポート済み

サポート済み

--

29 言語

qwen3-omni-flash-realtime

WebSocket

テキスト、音声、画像、動画

--

--

--

11 言語

qwen3-omni-flash

HTTP

テキスト、音声、画像、動画

サポート済み

--

サポート済み

11 言語

qwen3.5-livetranslate-flash-realtime

WebSocket

音声、画像

--

--

--

60 言語

qwen3-livetranslate-flash

HTTP

音声、動画

--

--

--

18 言語

すべてのモデル

Qwen3.5-Omni

モデル

API

入力

関数呼び出し

Web 検索

思考モード

qwen3.5-omni-plus-realtime

WebSocket

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-plus-realtime-2026-03-15

WebSocket

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-plus

HTTP

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-plus-2026-03-15

HTTP

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-flash-realtime

WebSocket

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-flash-realtime-2026-03-15

WebSocket

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-flash

HTTP

テキスト、オーディオ、画像、動画

対応

対応

--

qwen3.5-omni-flash-2026-03-15

HTTP

テキスト、オーディオ、画像、動画

対応

対応

--

Qwen3-Omni

モデル

API

入力

関数呼び出し

Web 検索

思考モード

qwen3-omni-flash-realtime

WebSocket

テキスト、オーディオ、画像、動画

--

--

--

qwen3-omni-flash-realtime-2025-12-01

WebSocket

テキスト、オーディオ、画像、動画

--

--

--

qwen3-omni-flash-realtime-2025-09-15

WebSocket

テキスト、オーディオ、画像、動画

--

--

--

qwen3-omni-flash

HTTP

テキスト、オーディオ、画像、動画

対応

--

対応

qwen3-omni-flash-2025-12-01

HTTP

テキスト、オーディオ、画像、動画

対応

--

対応

qwen3-omni-flash-2025-09-15

HTTP

テキスト、オーディオ、画像、動画

対応

--

対応

Qwen3.5-Livetranslate

モデル

API

入力

言語

qwen3.5-livetranslate-flash-realtime

WebSocket

オーディオ

60

qwen3.5-livetranslate-flash-realtime-2026-05-19

WebSocket

オーディオ

60

Qwen3-Livetranslate

モデル

API

入力

言語

qwen3-livetranslate-flash-realtime

WebSocket

オーディオ

18

qwen3-livetranslate-flash-realtime-2025-09-22

WebSocket

オーディオ

18

qwen3-livetranslate-flash

HTTP

オーディオ、動画

18

qwen3-livetranslate-flash-2025-12-01

HTTP

オーディオ、動画

18

レガシーモデル

これらのモデルは更新されなくなりました。新しいプロジェクトでは、Qwen3.5-Omni を使用してください。

モデル

入力

API

qwen2.5-omni-7b

テキスト、オーディオ、画像、動画

HTTP

qwen-omni-turbo

テキスト、オーディオ、画像、動画

HTTP

qwen-omni-turbo-latest

テキスト、オーディオ、画像、動画

HTTP

qwen-omni-turbo-2025-03-26

テキスト、オーディオ、画像、動画

HTTP

qwen-omni-turbo-realtime

テキスト、オーディオ

WebSocket

qwen-omni-turbo-realtime-latest

テキスト、オーディオ

WebSocket

qwen-omni-turbo-realtime-2025-05-08

テキスト、オーディオ

WebSocket

次のステップ

モデルを選択したら、対応する API ドキュメントをご参照ください:

  • Qwen3.5-Omni および Qwen3-Omni (WebSocket、リアルタイム) :Qwen-Omni-Realtime

  • Qwen3.5-Omni および Qwen3-Omni (HTTP、ファイル) :非リアルタイム Qwen-Omni

  • Qwen3.5-Livetranslate (WebSocket、リアルタイム) :Qwen によるリアルタイムの音声と音声動画の翻訳

  • Qwen3-Livetranslate (HTTP、ファイル) :Qwen による音声ファイルと動画ファイルの翻訳