この Topic では、Qwen-Omni-Realtime API のクライアントイベントについて説明します。
詳細については、「リアルタイムマルチモーダル」をご参照ください。
session.update
WebSocket 接続を確立した後、このイベントを送信してデフォルトのセッション構成を更新します。サービスが session.update イベントを受信すると、パラメーターを検証します。パラメーターが有効な場合、サービスはセッションを更新し、完全な構成を返します。それ以外の場合、サービスはエラーを返します。
type イベントタイプ。常に | |
session セッション構成。 |
response.create
response.create イベントは、サービスにモデルの応答を作成するよう命令します。VAD モードでは、サービスは自動的にモデルの応答を作成するため、このイベントを送信する必要はありません。
サービスは response.created イベント、1 つ以上のアイテムおよびコンテンツイベント (たとえば conversation.item.created や response.content_part.added)、そして最後に response.done イベントで応答し、応答が完了したことを示します。
type イベントタイプ。常に | |
response.cancel
クライアントは進行中の応答をキャンセルするためにこのイベントを送信します。キャンセルする応答がない場合、サービスはエラーイベントで応答します。
type イベントタイプ。常に | |
input_audio_buffer.append
入力音声バッファーに音声バイトを追加します。
type イベントタイプ。常に | |
audio Base64 エンコードされた音声データ。 |
input_audio_buffer.commit
ユーザー入力音声バッファーを送信して、会話に新しいユーザーメッセージアイテムを作成します。入力音声バッファーが空の場合、サービスはエラーイベントを返します。
VAD モード: クライアントはこのイベントを送信する必要はありません。サービスは自動的に音声バッファーを送信します。
手動モード: クライアントはユーザーメッセージアイテムを作成するために音声バッファーを送信する必要があります。
入力音声バッファーを送信しても、モデルからの応答は作成されません。サービスは input_audio_buffer.committed イベントで応答します。
クライアントが input_image_buffer.append イベントを送信した場合、input_audio_buffer.commit イベントは音声バッファーとともにイメージバッファーを送信します。
type イベントタイプ。常に | |
input_audio_buffer.clear
バッファーから音声バイトをクリアします。サービスは input_audio_buffer.cleared イベントで応答します。
type イベントタイプ。常に | |
input_image_buffer.append
イメージバッファーにイメージデータを追加します。イメージは、ローカルファイルから、またはビデオストリームからリアルタイムでキャプチャできます。
イメージ入力には次の制限が適用されます:
イメージフォーマットは JPG または JPEG である必要があります。推奨: 480p または 720p。最大: 1080p。
単一のイメージのサイズは、Base64 エンコーディング前で 500 KB を超えることはできません。
イメージデータは Base64 でエンコードする必要があります。
最大周波数 2 イメージ/秒でサービスにイメージを送信します。
input_image_buffer.append イベントを送信する前に、少なくとも 1 つの input_audio_buffer.append イベントを送信する必要があります。
イメージバッファーは、input_audio_buffer.commit イベントを介して音声バッファーとともに送信されます。
type イベントタイプ。常に | |
image Base64 エンコードされたイメージデータ。 |