このドキュメントでは、Qwen-ASR Realtime API との WebSocket セッション中にクライアントがサーバーに送信するイベントについて説明します。
ユーザーガイド:モデルの概要、特徴、サンプルコードについては、「リアルタイム音声認識 - Qwen」をご参照ください。
session.update
セッション構成を更新します。このイベントは WebSocket 接続を確立した直後に送信してください。このイベントを送信しない場合、システムはデフォルト構成を使用します。
サーバーがこのイベントの処理に成功すると、確認として <a baseurl="t3166998_v1_0_0.xdita" data-node="5877974" data-root="85183" data-tag="xref" href="t2996392.xdita#424ef2e774q9p" id="18511495banr3">session.updated</a> イベントを送信します。
| |
input_audio_buffer.append
音声データブロックをサーバーの入力バッファーに追加します。これはストリーミング音声のコアとなるイベントです。
シナリオ間の違い:
音声区間検出 (VAD) モード:音声バッファーは音声区間検出に使用されます。サーバーは、認識のために音声をいつ送信するかを自動的に決定します。
非 VAD モード:クライアントは、各イベントのオーディオデータの量を制御できます。単一の
input_audio_buffer.appendイベントにおけるaudioフィールドの最大サイズは 15 MiB です。より小さいオーディオブロックをストリーミングすると、応答が速くなります。
重要: サーバーは input_audio_buffer.append イベントに対して確認応答を送信しません。
| |
input_audio_buffer.commit
非 VAD モードでは、このイベントは手動で認識をトリガーします。クライアントが完全な発話の送信を完了したことをサーバーに通知します。その後、サーバーは現在のバッファー内のすべての音声データを単一のユニットとして認識します。
無効になるモード:VAD モード。
処理に成功すると、サーバーは確認として <a baseurl="t3166998_v1_0_0.xdita" data-node="6184673" data-root="85183" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="8d4594abb08t5">input_audio_buffer.committed</a> イベントを送信します。
| |