すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:音声テキスト変換モデル

最終更新日:Apr 23, 2026

リアルタイム音声認識や音声ファイルの文字起こしといったユースケースに応じて、適切なモデルを選択します。

以下の 2 つの質問にお答えいただくことで、ASR モデルの選択肢を素早く絞り込むことができます。

  1. ユーザーの発話と同時にリアルタイムで結果が必要ですか、それとも録音済みの音声ファイルをバッチ処理できますか?

  2. 音声にドメイン固有の専門用語は含まれていますか?

リアルタイムまたは非リアルタイム

リアルタイム

これらのモデルは WebSocket プロトコルを使用して、ストリーミング音声入力を処理し、ストリーミングテキスト出力を返します。ライブキャプション、音声アシスタント、会議の文字起こしなどのユースケースに最適です。

モデル

シリーズ

主な強み

fun-asr-realtime

Fun-ASR

ホットワード、方言対応、多言語混合認識

qwen3-asr-flash-realtime

Qwen3-ASR

感情認識

qwen3.5-omni-plus-realtime

Qwen3.5-Omni

プロンプトコンテキスト注入、セマンティック割り込み、113 言語

qwen3.5-omni-flash-realtime

Qwen3.5-Omni

軽量でコスト効率が高い

qwen3-omni-flash-realtime

Qwen3-Omni (旧世代)

プロンプトコンテキスト注入

非リアルタイム

音声ファイルを送信し、ポーリングを使用して結果を取得します。これらのモデルは、最大 12 時間または 2 GB の音声ファイルをサポートし、コールセンターの録音、ポッドキャスト、インタビューの文字起こしに適しています。

モデル

シリーズ

主な強み

fun-asr

Fun-ASR

話者分離、ホットワード、多言語混合認識

qwen3-asr-flash-filetrans

Qwen3-ASR

感情認識

qwen3.5-omni-plus

Qwen3.5-Omni

プロンプトコンテキスト注入、113 言語、OpenAI 互換 API

qwen3.5-omni-flash

Qwen3.5-Omni

軽量、コスト効率が高い、OpenAI 互換 HTTP API

qwen3-omni-flash

Qwen3-Omni-Flash (旧世代)

プロンプトコンテキスト注入、マルチモーダル、OpenAI 互換 API

ニアリアルタイムの代替手段

非リアルタイム API は、短い音声クリップも受け付けます。5 秒の音声チャンクを送信することで、WebSocket を使用せずにニアリアルタイムの結果を得ることができます。ただし、遅延の影響を受けやすいアプリケーションでは、接続オーバーヘッドを避けるために、WebSocket ベースのリアルタイムモデルの使用を推奨します。

ドメイン固有の専門用語の処理

柔軟性の高い順に、以下の 2 つのオプションから選択します。

  1. プロンプトコンテキスト注入 (Qwen3.5-Omni):システムプロンプトでドメイン固有のコンテキストを記述します。モデルは事前設定なしでリクエストごとに適応します。トレードオフとして、専用の ASR モデルと比較してリクエストごとのレイテンシーが高くなります。

  2. ホットワード (Fun-ASR):重み付けされた語彙リストを提供します。この方法は、安定的で変更頻度の低い専門用語のリストに最適です。

説明

Qwen3.5-Omni は、従来の ASR (自動音声認識) モデルではなく、音声を理解する大規模言語モデル (LLM) です。プロンプトを通じてコンテキストを注入すると、モデルはホットワードリストなしで適応します。

話者分離

fun-asrfun-asr-mtl などの非リアルタイム Fun-ASR モデルのみが話者分離をサポートしています。話者を区別する必要がある場合は、これらのモデルを使用してください。

感情認識

qwen3-asr-flash-realtimeqwen3-asr-flash-filetrans、および Qwen3.5-Omni シリーズのモデルは、文字起こし中の感情認識をサポートしています。

全項目比較

モデル

モード

API

精度向上

感情

話者分離

言語

最大時間

fun-asr-realtime

リアルタイム

WebSocket

ホットワード (中国本土のみ)

非対応

非対応

中国語、英語、日本語、および方言

ストリーミング

fun-asr

非リアルタイム

非同期 REST

ホットワード

非対応

対応

中国語、英語、日本語、および方言

12 時間 / 2 GB

qwen3-asr-flash-realtime

リアルタイム

WebSocket

--

対応

非対応

26 言語

ストリーミング

qwen3-asr-flash-filetrans

非リアルタイム

非同期 REST

--

対応

非対応

26 言語

12 時間 / 2 GB

paraformer-realtime-v2

リアルタイム

WebSocket

ホットワード

非対応

非対応

中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

ストリーミング

paraformer-v2

非リアルタイム

非同期 REST

ホットワード

非対応

対応

中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

12 時間 / 2 GB

paraformer-realtime-8k-v2

リアルタイム

WebSocket

ホットワード

対応

非対応

中国語

ストリーミング

paraformer-8k-v2

非リアルタイム

非同期 REST

ホットワード

非対応

非対応

中国語

12 時間 / 2 GB

qwen3.5-omni-plus

非リアルタイム

HTTP (OpenAI 互換)

プロンプトコンテキスト

対応

非対応

113 言語

リクエストごとの制限

qwen3.5-omni-flash

非リアルタイム

HTTP (OpenAI 互換)

プロンプトコンテキスト

対応

非対応

113 言語

リクエストごとの制限

qwen3.5-omni-plus-realtime

リアルタイム

WebSocket

プロンプトコンテキスト

対応

非対応

113 言語

120 分

qwen3.5-omni-flash-realtime

リアルタイム

WebSocket

プロンプトコンテキスト

対応

非対応

113 言語

120 分

qwen3-omni-flash (旧世代)

非リアルタイム

HTTP (OpenAI 互換)

プロンプトコンテキスト

対応

非対応

中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ロシア語。中国語の方言:四川語、上海語、広東語、閩南語、陝西語、南京語、天津語、北京語

リクエストごとの制限

qwen3-omni-flash-realtime (旧世代)

リアルタイム

WebSocket

プロンプトコンテキスト

対応

非対応

中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ロシア語。中国語の方言:四川語、上海語、広東語、閩南語、陝西語、南京語、天津語、北京語

120 分

説明

すべてのモデルは、WAV、MP3、AAC などの一般的な音声フォーマットをサポートしています。

リージョン別の提供状況

モデルの提供状況はリージョンによって異なります。API キーを作成したリージョンで利用可能なモデルを確認してください。

国際

シンガポール リージョンの API キーを使用して、以下のモデルにアクセスします。

モデルシリーズ

モード

利用可能なモデル

Fun-ASR

リアルタイム

fun-asr-realtime

非リアルタイム

fun-asr, fun-asr-mtl

Qwen3-ASR

リアルタイム

qwen3-asr-flash-realtime

非リアルタイム

qwen3-asr-flash-filetrans, qwen3-asr-flash

Qwen3.5-Omni

Qwen3-Omni

リアルタイム / 非リアルタイム

qwen3.5-omni-plus-realtime, qwen3.5-omni-flash-realtime, qwen3.5-omni-plus, qwen3.5-omni-flash, qwen3-omni-flash-realtime (旧世代), qwen3-omni-flash (旧世代)

中国本土

中国 (北京) リージョンの API キーを使用して、以下のモデルにアクセスします。

モデルシリーズ

モード

タイプ

利用可能なモデル

Fun-ASR

リアルタイム

推奨

fun-asr-realtime, fun-asr-flash-8k-realtime, fun-asr-mtl-realtime

非リアルタイム

推奨

fun-asr, fun-asr-mtl

Qwen3-ASR

リアルタイム

推奨

qwen3-asr-flash-realtime

非リアルタイム

推奨

qwen3-asr-flash-filetrans, qwen3-asr-flash

Qwen3.5-Omni

Qwen3-Omni

リアルタイム / 非リアルタイム

推奨

qwen3.5-omni-plus-realtime, qwen3.5-omni-flash-realtime, qwen3.5-omni-plus, qwen3.5-omni-flash, qwen3-omni-flash-realtime (旧世代), qwen3-omni-flash (旧世代)

レガシー

リアルタイム

レガシー

gummy-realtime-v1, gummy-chat-v1, paraformer-realtime-v2, paraformer-realtime-v1, paraformer-realtime-8k-v2, paraformer-realtime-8k-v1

非リアルタイム

paraformer-v2, paraformer-8k-v2, paraformer-v1, paraformer-8k-v1, paraformer-mtl-v1

非リアルタイム

sensevoice-v1 (非推奨予定)

説明

米国リージョンでは、非リアルタイムの qwen3-asr-flash-us もサポートされています。これには米国リージョンの API キーが必要です。