このドキュメントでは、クライアントが Qwen-ASR Realtime API との WebSocket セッション中にサーバーに送信するイベントについて説明します。
ユーザーガイド:モデルの概要、特徴、および完全なサンプルコードについては、「リアルタイム音声認識 - Qwen」をご参照ください。
session.update
セッション構成を更新します。このイベントは、WebSocket 接続を確立した直後に送信してください。このイベントを送信しない場合、システムはデフォルトの構成を使用します。
サーバーがこのイベントを正常に処理した後、確認として <a baseurl="t3166998_v2_0_1.xdita" data-node="5877974" data-root="85177" data-tag="xref" href="t2996392.xdita#424ef2e774q9p" id="7cf3cacc9elyp">session.updated</a> イベントを送信します。
| |
input_audio_buffer.append
音声データブロックをサーバーの入力バッファーに追加します。これは、ストリーミング音声のコアとなるイベントです。
シナリオによる違い:
VAD モード:音声バッファーは音声区間検出に使用されます。サーバーは、認識のために音声を送信するタイミングを自動的に決定します。
非 VAD モード:クライアントは各イベントの音声データ量をコントロールできます。単一の
input_audio_buffer.appendイベントにおけるaudioフィールドの最大サイズは 15 MiB です。より速い応答を得るには、より小さい音声ブロックをストリーミングしてください。
重要:サーバーは input_audio_buffer.append イベントに対する確認応答を送信しません。
| |
input_audio_buffer.commit
非 VAD モードでは、このイベントは手動で認識をトリガーします。クライアントが完全な発話の送信を完了したことをサーバーに通知します。その後、サーバーは現在のバッファー内のすべての音声データを単一のユニットとして認識します。
無効化されるモード: VAD モード。
正常に処理された後、サーバーは確認として<a baseurl="t3166998_v2_0_1.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="db12619007qx8">input_audio_buffer.committed</a> イベントを送信します。
| |
session.finish
現在のセッションを終了します。
サーバーの応答フロー:
音声が検出された場合: 最終的な音声認識が完了すると、サーバーは認識結果を含む
<a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#403ecacd74qqg" id="08b47ad71aid9">conversation.item.input_audio_transcription.completed</a>イベントを送信します。その後、サーバーはセッションが終了したことを示す<a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="5c32b2c857nkp">session.finished</a>イベントを送信します。音声が検出されない場合、サーバーは直接
<a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="9e19545606n7y">session.finished</a>イベントを送信します。
クライアントが <a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="b7b837b1baejl">session.finished</a> イベントを受信した後、クライアントは切断する必要があります。
| |