リアルタイム API のクライアントイベント - Alibaba Cloud Model Studio

この Topic では、Qwen-Omni-Realtime API のクライアントイベントについて説明します。

詳細については、「リアルタイムマルチモーダル」をご参照ください。

session.update

WebSocket 接続を確立した後、このイベントを送信してデフォルトのセッション構成を更新します。サービスが session.update イベントを受信すると、パラメーターを検証します。パラメーターが有効な場合、サービスはセッションを更新し、完全な構成を返します。それ以外の場合、サービスはエラーを返します。

type string (必須)

イベントタイプ。常に session.update です。

{
    "event_id": "event_ToPZqeobitzUJnt3QqtWg",
    "type": "session.update",
    "session": {
        "modalities": [
            "text",
            "audio"
        ],
        "voice": "Chelsie",
        "input_audio_format": "pcm16",
        "output_audio_format": "pcm24",
        "instructions": "あなたは五つ星ホテルの AI カスタマーサービスエージェントです。部屋のタイプ、施設、価格、予約ポリシーに関するお客様からのお問い合わせに、正確かつフレンドリな態度で回答してください。常にプロフェッショナルで親切な態度で対応してください。未確認の情報やホテルのサービスの範囲を超える情報は提供しないでください。",
        "turn_detection": {
            "type": "server_vad",
            "threshold": 0.5,
            "silence_duration_ms": 800
        }
    }
}

session object (任意)

セッション構成。

プロパティ

modalities array (任意)

モデルの出力モダリティ。有効値:

["text"]
テキストのみを出力します。
["text","audio"] (デフォルト)
テキストと音声を出力します。

voice string (任意)

生成される音声のボイス。サポートされているボイスのリストについては、「ボイスリスト」をご参照ください。

デフォルトのボイス:

Qwen3-Omni-Flash-Realtime: Cherry
Qwen-Omni-Turbo-Realtime: Chelsie

input_audio_format string (任意)

ユーザーの入力音声のフォーマット。現在、pcm16 のみがサポートされています。

output_audio_format string (任意)

出力音声のフォーマット。現在、pcm24 のみがサポートされています。

smooth_output boolean | null (任意)

このパラメーターは Qwen3-Omni-Flash-Realtime モデルにのみ適用されます。

会話形式の返信スタイルを有効にするかどうかを指定します。有効値:

true (デフォルト): 会話形式の返信。
false: よりフォーマルな書き言葉スタイルの返信。
これは、読みにくいコンテンツにはうまく機能しない場合があります。
null: モデルが自動的に会話形式または書き言葉の返信スタイルを選択します。

instructions string (任意)

モデルの目標またはロールを設定するシステムメッセージ。

turn_detection object (任意)

音声区間検出 (VAD) の構成。これを null に設定すると、VAD を無効にし、手動でモデルの応答をトリガーします。このパラメーターが提供されない場合、システムはデフォルトのパラメーターで VAD を有効にします。

プロパティ

type string (任意)

サーバー側の VAD タイプ。常に server_vad です。デフォルト値は server_vad です。

threshold float (任意)

VAD の秘密度。値が低いほど VAD の感度が高くなり、バックグラウンドノイズを含むかすかな音を音声として検出する可能性が高くなります。値が高いほど感度が低くなり、検出をトリガーするにはよりクリアで大きな音声が必要になります。

値の範囲は [-1.0, 1.0] です。デフォルト値は 0.5 です。

silence_duration_ms integer (任意)

音声終了後にモデルの応答をトリガーするために必要な無音の最小時間。値が低いと応答は速くなりますが、スピーチ中の短い休止中にモデルが誤って応答する可能性があります。

デフォルト値は 800 です。パラメーターの範囲は 200 から 6000 です。

response.create

response.create イベントは、サービスにモデルの応答を作成するよう命令します。VAD モードでは、サービスは自動的にモデルの応答を作成するため、このイベントを送信する必要はありません。

サービスは response.created イベント、1 つ以上のアイテムおよびコンテンツイベント (たとえば conversation.item.created や response.content_part.added)、そして最後に response.done イベントで応答し、応答が完了したことを示します。

type string (必須)

イベントタイプ。常に response.create です。

{
    "type": "response.create",
    "event_id": "event_1718624400000"
}

response.cancel

クライアントは進行中の応答をキャンセルするためにこのイベントを送信します。キャンセルする応答がない場合、サービスはエラーイベントで応答します。

type string (必須)

イベントタイプ。常に response.cancel です。

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "response.cancel"
}

input_audio_buffer.append

入力音声バッファーに音声バイトを追加します。

type string (必須)

イベントタイプ。常に input_audio_buffer.append です。

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "input_audio_buffer.append",
    "audio": "UklGR..."
}

audio string (必須)

Base64 エンコードされた音声データ。

input_audio_buffer.commit

ユーザー入力音声バッファーを送信して、会話に新しいユーザーメッセージアイテムを作成します。入力音声バッファーが空の場合、サービスはエラーイベントを返します。

VAD モード: クライアントはこのイベントを送信する必要はありません。サービスは自動的に音声バッファーを送信します。
手動モード: クライアントはユーザーメッセージアイテムを作成するために音声バッファーを送信する必要があります。

入力音声バッファーを送信しても、モデルからの応答は作成されません。サービスは input_audio_buffer.committed イベントで応答します。

クライアントが input_image_buffer.append イベントを送信した場合、input_audio_buffer.commit イベントは音声バッファーとともにイメージバッファーを送信します。

type string (必須)

イベントタイプ。常に input_audio_buffer.commit です。

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "input_audio_buffer.commit"
}

input_audio_buffer.clear

バッファーから音声バイトをクリアします。サービスは input_audio_buffer.cleared イベントで応答します。

type string (必須)

イベントタイプ。常に input_audio_buffer.clear です。

{
    "event_id": "event_xxx",
    "type": "input_audio_buffer.clear"
}

input_image_buffer.append

イメージバッファーにイメージデータを追加します。イメージは、ローカルファイルから、またはビデオストリームからリアルタイムでキャプチャできます。

イメージ入力には次の制限が適用されます:

イメージフォーマットは JPG または JPEG である必要があります。推奨: 480p または 720p。最大: 1080p。
単一のイメージのサイズは、Base64 エンコーディング前で 500 KB を超えることはできません。
イメージデータは Base64 でエンコードする必要があります。
最大周波数 2 イメージ/秒でサービスにイメージを送信します。
input_image_buffer.append イベントを送信する前に、少なくとも 1 つの input_audio_buffer.append イベントを送信する必要があります。

イメージバッファーは、input_audio_buffer.commit イベントを介して音声バッファーとともに送信されます。

type string (必須)

イベントタイプ。常に input_image_buffer.append です。

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}

image string (必須)

Base64 エンコードされたイメージデータ。