リアルタイム音声認識や音声ファイルの文字起こしといったユースケースに応じて、適切なモデルを選択します。
以下の 2 つの質問にお答えいただくことで、ASR モデルの選択肢を素早く絞り込むことができます。
ユーザーの発話と同時にリアルタイムで結果が必要ですか、それとも録音済みの音声ファイルをバッチ処理できますか?
音声にドメイン固有の専門用語は含まれていますか?
リアルタイムまたは非リアルタイム
リアルタイム
これらのモデルは WebSocket プロトコルを使用して、ストリーミング音声入力を処理し、ストリーミングテキスト出力を返します。ライブキャプション、音声アシスタント、会議の文字起こしなどのユースケースに最適です。
モデル | シリーズ | 主な強み |
| Fun-ASR | ホットワード、方言対応、多言語混合認識 |
| Qwen3-ASR | 感情認識 |
| Qwen3.5-Omni | プロンプトコンテキスト注入、セマンティック割り込み、113 言語 |
| Qwen3.5-Omni | 軽量でコスト効率が高い |
| Qwen3-Omni (旧世代) | プロンプトコンテキスト注入 |
非リアルタイム
音声ファイルを送信し、ポーリングを使用して結果を取得します。これらのモデルは、最大 12 時間または 2 GB の音声ファイルをサポートし、コールセンターの録音、ポッドキャスト、インタビューの文字起こしに適しています。
モデル | シリーズ | 主な強み |
| Fun-ASR | 話者分離、ホットワード、多言語混合認識 |
| Qwen3-ASR | 感情認識 |
| Qwen3.5-Omni | プロンプトコンテキスト注入、113 言語、OpenAI 互換 API |
| Qwen3.5-Omni | 軽量、コスト効率が高い、OpenAI 互換 HTTP API |
| Qwen3-Omni-Flash (旧世代) | プロンプトコンテキスト注入、マルチモーダル、OpenAI 互換 API |
ニアリアルタイムの代替手段
非リアルタイム API は、短い音声クリップも受け付けます。5 秒の音声チャンクを送信することで、WebSocket を使用せずにニアリアルタイムの結果を得ることができます。ただし、遅延の影響を受けやすいアプリケーションでは、接続オーバーヘッドを避けるために、WebSocket ベースのリアルタイムモデルの使用を推奨します。
ドメイン固有の専門用語の処理
柔軟性の高い順に、以下の 2 つのオプションから選択します。
プロンプトコンテキスト注入 (Qwen3.5-Omni):システムプロンプトでドメイン固有のコンテキストを記述します。モデルは事前設定なしでリクエストごとに適応します。トレードオフとして、専用の ASR モデルと比較してリクエストごとのレイテンシーが高くなります。
ホットワード (Fun-ASR):重み付けされた語彙リストを提供します。この方法は、安定的で変更頻度の低い専門用語のリストに最適です。
Qwen3.5-Omni は、従来の ASR (自動音声認識) モデルではなく、音声を理解する大規模言語モデル (LLM) です。プロンプトを通じてコンテキストを注入すると、モデルはホットワードリストなしで適応します。
話者分離
fun-asr や fun-asr-mtl などの非リアルタイム Fun-ASR モデルのみが話者分離をサポートしています。話者を区別する必要がある場合は、これらのモデルを使用してください。
感情認識
qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans、および Qwen3.5-Omni シリーズのモデルは、文字起こし中の感情認識をサポートしています。
全項目比較
モデル | モード | API | 精度向上 | 感情 | 話者分離 | 言語 | 最大時間 |
| リアルタイム | WebSocket | ホットワード (中国本土のみ) | 非対応 | 非対応 | 中国語、英語、日本語、および方言 | ストリーミング |
| 非リアルタイム | 非同期 REST | ホットワード | 非対応 | 対応 | 中国語、英語、日本語、および方言 | 12 時間 / 2 GB |
| リアルタイム | WebSocket | -- | 対応 | 非対応 | 26 言語 | ストリーミング |
| 非リアルタイム | 非同期 REST | -- | 対応 | 非対応 | 26 言語 | 12 時間 / 2 GB |
| リアルタイム | WebSocket | ホットワード | 非対応 | 非対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語 | ストリーミング |
| 非リアルタイム | 非同期 REST | ホットワード | 非対応 | 対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語 | 12 時間 / 2 GB |
| リアルタイム | WebSocket | ホットワード | 対応 | 非対応 | 中国語 | ストリーミング |
| 非リアルタイム | 非同期 REST | ホットワード | 非対応 | 非対応 | 中国語 | 12 時間 / 2 GB |
| 非リアルタイム | HTTP (OpenAI 互換) | プロンプトコンテキスト | 対応 | 非対応 | 113 言語 | リクエストごとの制限 |
| 非リアルタイム | HTTP (OpenAI 互換) | プロンプトコンテキスト | 対応 | 非対応 | 113 言語 | リクエストごとの制限 |
| リアルタイム | WebSocket | プロンプトコンテキスト | 対応 | 非対応 | 113 言語 | 120 分 |
| リアルタイム | WebSocket | プロンプトコンテキスト | 対応 | 非対応 | 113 言語 | 120 分 |
| 非リアルタイム | HTTP (OpenAI 互換) | プロンプトコンテキスト | 対応 | 非対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ロシア語。中国語の方言:四川語、上海語、広東語、閩南語、陝西語、南京語、天津語、北京語 | リクエストごとの制限 |
| リアルタイム | WebSocket | プロンプトコンテキスト | 対応 | 非対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ロシア語。中国語の方言:四川語、上海語、広東語、閩南語、陝西語、南京語、天津語、北京語 | 120 分 |
すべてのモデルは、WAV、MP3、AAC などの一般的な音声フォーマットをサポートしています。
リージョン別の提供状況
モデルの提供状況はリージョンによって異なります。API キーを作成したリージョンで利用可能なモデルを確認してください。
国際
シンガポール リージョンの API キーを使用して、以下のモデルにアクセスします。
モデルシリーズ | モード | 利用可能なモデル |
Fun-ASR | リアルタイム |
|
非リアルタイム |
| |
Qwen3-ASR | リアルタイム |
|
非リアルタイム |
| |
Qwen3.5-Omni Qwen3-Omni | リアルタイム / 非リアルタイム |
|
中国本土
中国 (北京) リージョンの API キーを使用して、以下のモデルにアクセスします。
モデルシリーズ | モード | タイプ | 利用可能なモデル |
Fun-ASR | リアルタイム | 推奨 |
|
非リアルタイム | 推奨 |
| |
Qwen3-ASR | リアルタイム | 推奨 |
|
非リアルタイム | 推奨 |
| |
Qwen3.5-Omni Qwen3-Omni | リアルタイム / 非リアルタイム | 推奨 |
|
レガシー | リアルタイム | レガシー |
|
非リアルタイム |
| ||
非リアルタイム |
|
米国リージョンでは、非リアルタイムの qwen3-asr-flash-us もサポートされています。これには米国リージョンの API キーが必要です。