このトピックでは、qwen3-livetranslate-flash-realtime API のクライアントイベントについて説明します。
リファレンス:リアルタイム音声・動画翻訳 - Qwen
session.update
WebSocket 接続を確立した後、このイベントを送信してデフォルトのセッション構成を更新します。
サービスが session.update イベントを受信すると、パラメーターが検証されます。パラメーターが無効な場合、サービスはエラーを返します。パラメーターが有効な場合、サービスは完全な構成を更新して返します。
type イベントタイプ。これは | |
session セッション構成。 |
input_audio_buffer.append
このイベントは、音声バイトを入力音声バッファーに追加します。サービスはこのバッファーを使用して音声を検出し、送信するタイミングを決定します。
type イベントタイプ。これは | |
audio Base64 エンコードされた音声データ。 |
input_image_buffer.append
このイベントは、イメージデータをイメージバッファーに追加します。イメージは、ローカルファイルから取得することも、ビデオストリームからリアルタイムでキャプチャすることもできます。
イメージ入力には、次の制限が適用されます:
イメージフォーマットは JPG または JPEG である必要があります。最適なパフォーマンスを得るには、480p または 720p の解像度を推奨します。最大解像度は 1080p です。
Base64 エンコーディング前の単一イメージのサイズは 500 KB を超えることはできません。
イメージデータは Base64 エンコードされている必要があります。
バッファーにイメージを追加する周波数は、毎秒 2 イメージを超えてはなりません。
input_image_buffer.append イベントを送信する前に、少なくとも 1 つの input_audio_buffer.append イベントを送信する必要があります。
type イベントタイプ。これは | |
image Base64 エンコードされたイメージデータ。 |
session.finish
このイベントを送信して、現在のセッションを終了します。このイベントを送信すると、サーバーは次のように応答します:
音声が検出された場合:サーバーは音声認識を完了し、認識結果を含む conversation.item.input_audio_transcription.completed イベントを送信します。その後、session.finished イベントを送信して、セッションが終了したことを示します。
音声が検出されない場合:サーバー側は
<a baseurl="t3144643_v2_0_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="2e9bac97be3so">session.finished</a>イベントを直接送信します。
クライアントは、<a baseurl="t3144643_v2_0_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="45d09216c5qsi">session.finished</a> イベントを受信した後、切断する必要があります。
type イベントタイプ。これは | |