クライアントイベント - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

このトピックでは、qwen3-livetranslate-flash-realtime API のクライアントイベントについて説明します。

リファレンス：リアルタイム音声・動画翻訳 - Qwen

session.update

WebSocket 接続を確立した後、このイベントを送信してデフォルトのセッション構成を更新します。

サービスが session.update イベントを受信すると、パラメーターが検証されます。パラメーターが無効な場合、サービスはエラーを返します。パラメーターが有効な場合、サービスは完全な構成を更新して返します。

type string (必須)

イベントタイプ。これは session.update に設定する必要があります。

{
  "event_id": "event_ToPZqeobitzUJnt3QqtWg",
  "type": "session.update",
  "session": {
    "modalities": [
      "text",
      "audio"
    ],
    "voice": "Cherry",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm24",
    "input_audio_transcription": {
      "model": "qwen3-asr-flash-realtime",
      "language": "zh"
    },
    "translation": {
      "language": "en"
    }
  }
}

session object (任意)

セッション構成。

プロパティ

modalities array (任意)

モデルの出力モダリティ。有効値：

["text"]
テキストのみを出力します。
["text","audio"] (デフォルト)
テキストと音声を出力します。

voice string (任意)

生成される音声のボイス。有効値：サポートされている音声。デフォルト値：Cherry。

input_audio_transcription object (任意)

入力音声の構成。

プロパティ

model string (任意)

音声認識モデル。このパラメーターが構成されている場合、サーバーは翻訳とともに入力音声の音声認識結果 (ソース言語の原文) を返します。結果は conversation.item.input_audio_transcription.text および conversation.item.input_audio_transcription.completed イベントを通じて返されます。

有効値：qwen3-asr-flash-realtime。

language string (任意)

翻訳のソース言語。有効値：サポートされている言語。デフォルト値：en。

input_audio_format string (任意)

入力音声のフォーマット。現在、このパラメーターは pcm16 にのみ設定できます。

output_audio_format string (任意)

出力音声のフォーマット。現在、このパラメーターは pcm24 にのみ設定できます。

translation object (任意)

翻訳の構成。

プロパティ

language string (任意)

翻訳のターゲット言語。有効値：サポートされている言語。デフォルト値：en。

input_audio_buffer.append

このイベントは、音声バイトを入力音声バッファーに追加します。サービスはこのバッファーを使用して音声を検出し、送信するタイミングを決定します。

type string (必須)

イベントタイプ。これは input_audio_buffer.append に設定する必要があります。

{
    "event_id": "event_xxx",
    "type": "input_audio_buffer.append",
    "audio": "xxx"
}

audio string (必須)

Base64 エンコードされた音声データ。

input_image_buffer.append

このイベントは、イメージデータをイメージバッファーに追加します。イメージは、ローカルファイルから取得することも、ビデオストリームからリアルタイムでキャプチャすることもできます。

イメージ入力には、次の制限が適用されます：

イメージフォーマットは JPG または JPEG である必要があります。最適なパフォーマンスを得るには、480p または 720p の解像度を推奨します。最大解像度は 1080p です。
Base64 エンコーディング前の単一イメージのサイズは 500 KB を超えることはできません。
イメージデータは Base64 エンコードされている必要があります。
バッファーにイメージを追加する周波数は、毎秒 2 イメージを超えてはなりません。
input_image_buffer.append イベントを送信する前に、少なくとも 1 つの input_audio_buffer.append イベントを送信する必要があります。

type string (必須)

イベントタイプ。これは input_image_buffer.append に設定する必要があります。

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}

image string (必須)

Base64 エンコードされたイメージデータ。

session.finish

このイベントを送信して、現在のセッションを終了します。このイベントを送信すると、サーバーは次のように応答します：

音声が検出された場合：サーバーは音声認識を完了し、認識結果を含む conversation.item.input_audio_transcription.completed イベントを送信します。その後、session.finished イベントを送信して、セッションが終了したことを示します。
音声が検出されない場合：サーバー側は <a baseurl="t3144643_v2_0_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="2e9bac97be3so">session.finished</a> イベントを直接送信します。

クライアントは、<a baseurl="t3144643_v2_0_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="45d09216c5qsi">session.finished</a> イベントを受信した後、切断する必要があります。

type string (必須)

イベントタイプ。これは session.finish に設定する必要があります。

{
    "event_id": "event_xxx",
    "type": "session.finish"
}