音声テキスト変換モデル - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

リアルタイム音声認識や音声ファイルの文字起こしといったユースケースに応じて、適切なモデルを選択します。

以下の 2 つの質問にお答えいただくことで、ASR モデルの選択肢を素早く絞り込むことができます。

ユーザーの発話と同時にリアルタイムで結果が必要ですか、それとも録音済みの音声ファイルをバッチ処理できますか？
音声にドメイン固有の専門用語は含まれていますか？

リアルタイムまたは非リアルタイム

リアルタイム

これらのモデルは WebSocket プロトコルを使用して、ストリーミング音声入力を処理し、ストリーミングテキスト出力を返します。ライブキャプション、音声アシスタント、会議の文字起こしなどのユースケースに最適です。

モデル	シリーズ	主な強み
`fun-asr-realtime`	Fun-ASR	ホットワード、方言対応、多言語混合認識
`qwen3-asr-flash-realtime`	Qwen3-ASR	感情認識
`qwen3.5-omni-plus-realtime`	Qwen3.5-Omni	プロンプトコンテキスト注入、セマンティック割り込み、113 言語
`qwen3.5-omni-flash-realtime`	Qwen3.5-Omni	軽量でコスト効率が高い
`qwen3-omni-flash-realtime`	Qwen3-Omni (旧世代)	プロンプトコンテキスト注入

非リアルタイム

音声ファイルを送信し、ポーリングを使用して結果を取得します。これらのモデルは、最大 12 時間または 2 GB の音声ファイルをサポートし、コールセンターの録音、ポッドキャスト、インタビューの文字起こしに適しています。

モデル	シリーズ	主な強み
`fun-asr`	Fun-ASR	話者分離、ホットワード、多言語混合認識
`qwen3-asr-flash-filetrans`	Qwen3-ASR	感情認識
`qwen3.5-omni-plus`	Qwen3.5-Omni	プロンプトコンテキスト注入、113 言語、OpenAI 互換 API
`qwen3.5-omni-flash`	Qwen3.5-Omni	軽量、コスト効率が高い、OpenAI 互換 HTTP API
`qwen3-omni-flash`	Qwen3-Omni-Flash (旧世代)	プロンプトコンテキスト注入、マルチモーダル、OpenAI 互換 API

ニアリアルタイムの代替手段

非リアルタイム API は、短い音声クリップも受け付けます。5 秒の音声チャンクを送信することで、WebSocket を使用せずにニアリアルタイムの結果を得ることができます。ただし、遅延の影響を受けやすいアプリケーションでは、接続オーバーヘッドを避けるために、WebSocket ベースのリアルタイムモデルの使用を推奨します。

ドメイン固有の専門用語の処理

柔軟性の高い順に、以下の 2 つのオプションから選択します。

プロンプトコンテキスト注入 (Qwen3.5-Omni)：システムプロンプトでドメイン固有のコンテキストを記述します。モデルは事前設定なしでリクエストごとに適応します。トレードオフとして、専用の ASR モデルと比較してリクエストごとのレイテンシーが高くなります。
ホットワード (Fun-ASR)：重み付けされた語彙リストを提供します。この方法は、安定的で変更頻度の低い専門用語のリストに最適です。

説明

Qwen3.5-Omni は、従来の ASR (自動音声認識) モデルではなく、音声を理解する大規模言語モデル (LLM) です。プロンプトを通じてコンテキストを注入すると、モデルはホットワードリストなしで適応します。

話者分離

fun-asr や fun-asr-mtl などの非リアルタイム Fun-ASR モデルのみが話者分離をサポートしています。話者を区別する必要がある場合は、これらのモデルを使用してください。

感情認識

qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans、および Qwen3.5-Omni シリーズのモデルは、文字起こし中の感情認識をサポートしています。

全項目比較

モデル	モード	API	精度向上	感情	話者分離	言語	最大時間
`fun-asr-realtime`	リアルタイム	WebSocket	ホットワード (中国本土のみ)	非対応	非対応	中国語、英語、日本語、および方言	ストリーミング
`fun-asr`	非リアルタイム	非同期 REST	ホットワード	非対応	対応	中国語、英語、日本語、および方言	12 時間 / 2 GB
`qwen3-asr-flash-realtime`	リアルタイム	WebSocket	--	対応	非対応	26 言語	ストリーミング
`qwen3-asr-flash-filetrans`	非リアルタイム	非同期 REST	--	対応	非対応	26 言語	12 時間 / 2 GB
`paraformer-realtime-v2`	リアルタイム	WebSocket	ホットワード	非対応	非対応	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語	ストリーミング
`paraformer-v2`	非リアルタイム	非同期 REST	ホットワード	非対応	対応	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語	12 時間 / 2 GB
`paraformer-realtime-8k-v2`	リアルタイム	WebSocket	ホットワード	対応	非対応	中国語	ストリーミング
`paraformer-8k-v2`	非リアルタイム	非同期 REST	ホットワード	非対応	非対応	中国語	12 時間 / 2 GB
`qwen3.5-omni-plus`	非リアルタイム	HTTP (OpenAI 互換)	プロンプトコンテキスト	対応	非対応	113 言語	リクエストごとの制限
`qwen3.5-omni-flash`	非リアルタイム	HTTP (OpenAI 互換)	プロンプトコンテキスト	対応	非対応	113 言語	リクエストごとの制限
`qwen3.5-omni-plus-realtime`	リアルタイム	WebSocket	プロンプトコンテキスト	対応	非対応	113 言語	120 分
`qwen3.5-omni-flash-realtime`	リアルタイム	WebSocket	プロンプトコンテキスト	対応	非対応	113 言語	120 分
`qwen3-omni-flash` (旧世代)	非リアルタイム	HTTP (OpenAI 互換)	プロンプトコンテキスト	対応	非対応	中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ロシア語。中国語の方言：四川語、上海語、広東語、閩南語、陝西語、南京語、天津語、北京語	リクエストごとの制限
`qwen3-omni-flash-realtime` (旧世代)	リアルタイム	WebSocket	プロンプトコンテキスト	対応	非対応	中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ロシア語。中国語の方言：四川語、上海語、広東語、閩南語、陝西語、南京語、天津語、北京語	120 分

説明

すべてのモデルは、WAV、MP3、AAC などの一般的な音声フォーマットをサポートしています。

リージョン別の提供状況

モデルの提供状況はリージョンによって異なります。API キーを作成したリージョンで利用可能なモデルを確認してください。

国際

シンガポール リージョンの API キーを使用して、以下のモデルにアクセスします。

モデルシリーズ	モード	利用可能なモデル
Fun-ASR	リアルタイム	`fun-asr-realtime`
Fun-ASR	非リアルタイム	`fun-asr`, `fun-asr-mtl`
Qwen3-ASR	リアルタイム	`qwen3-asr-flash-realtime`
Qwen3-ASR	非リアルタイム	`qwen3-asr-flash-filetrans`, `qwen3-asr-flash`
Qwen3.5-Omni Qwen3-Omni	リアルタイム / 非リアルタイム	`qwen3.5-omni-plus-realtime`, `qwen3.5-omni-flash-realtime`, `qwen3.5-omni-plus`, `qwen3.5-omni-flash`, `qwen3-omni-flash-realtime` (旧世代), `qwen3-omni-flash` (旧世代)

中国本土

中国 (北京) リージョンの API キーを使用して、以下のモデルにアクセスします。

モデルシリーズ	モード	タイプ	利用可能なモデル
Fun-ASR	リアルタイム	推奨	`fun-asr-realtime`, `fun-asr-flash-8k-realtime`, `fun-asr-mtl-realtime`
Fun-ASR	非リアルタイム	推奨	`fun-asr`, `fun-asr-mtl`
Qwen3-ASR	リアルタイム	推奨	`qwen3-asr-flash-realtime`
Qwen3-ASR	非リアルタイム	推奨	`qwen3-asr-flash-filetrans`, `qwen3-asr-flash`
Qwen3.5-Omni Qwen3-Omni	リアルタイム / 非リアルタイム	推奨	`qwen3.5-omni-plus-realtime`, `qwen3.5-omni-flash-realtime`, `qwen3.5-omni-plus`, `qwen3.5-omni-flash`, `qwen3-omni-flash-realtime` (旧世代), `qwen3-omni-flash` (旧世代)
レガシー	リアルタイム	レガシー	`gummy-realtime-v1`, `gummy-chat-v1`, `paraformer-realtime-v2`, `paraformer-realtime-v1`, `paraformer-realtime-8k-v2`, `paraformer-realtime-8k-v1`
	非リアルタイム		`paraformer-v2`, `paraformer-8k-v2`, `paraformer-v1`, `paraformer-8k-v1`, `paraformer-mtl-v1`
	非リアルタイム		`sensevoice-v1` (非推奨予定)

説明

米国リージョンでは、非リアルタイムの qwen3-asr-flash-us もサポートされています。これには米国リージョンの API キーが必要です。