すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:リアルタイム音声認識 (Qwen-ASR-Realtime) のクライアントイベント

最終更新日:Dec 05, 2025

このドキュメントでは、Qwen-ASR Realtime API との WebSocket セッション中にクライアントがサーバーに送信するイベントについて説明します。

ユーザーガイド:モデルの概要、特徴、サンプルコードについては、「リアルタイム音声認識 - Qwen」をご参照ください。

session.update

セッション構成を更新します。このイベントは WebSocket 接続を確立した直後に送信してください。このイベントを送信しない場合、システムはデフォルト構成を使用します。

サーバーがこのイベントの処理に成功すると、確認として <a baseurl="t3166998_v1_0_0.xdita" data-node="5877974" data-root="85183" data-tag="xref" href="t2996392.xdita#424ef2e774q9p" id="18511495banr3">session.updated</a> イベントを送信します。

パラメーター

必須

説明

type

string

はい

イベントタイプ。値はsession.updateに固定されています。

event_id

string

はい

イベント ID。

session

object

はい

セッション構成を含むオブジェクト。

session.input_audio_format

string

いいえ

音声のフォーマット。pcmopusがサポートされています。

デフォルト: pcm

session.sample_rate

integer

いいえ

Hz 単位の音声サンプリングレートです。サポートされている値は 160008000 です。

デフォルト: 16000

このパラメーターを 8000 に設定すると、サーバーはオーディオを認識する前に 16000 Hz にアップサンプリングします。これにより、わずかな遅延が発生する可能性があります。この値は、電話回線からのオーディオなど、ソースオーディオが 8000 Hz の場合にのみ使用してください。

session.input_audio_transcription

object

いいえ

音声認識に関連する構成。

session.input_audio_transcription.language

string

いいえ

音声のソース言語。

  • zh: 中国語 (標準語、四川語、閩南語、呉語)

  • yue: 広東語

  • en: 英語

  • ja: 日本語

  • de: ドイツ語

  • ko: 韓国語

  • ru: ロシア語

  • fr: フランス語

  • pt: ポルトガル語

  • ar: アラビア語

  • it: イタリア語

  • es: スペイン語

  • hi: ヒンディー語

  • id: インドネシア語

  • th: タイ語

  • tr: トルコ語

  • uk: ウクライナ語

  • vi: ベトナム語

session.input_audio_transcription.corpus.text

string

いいえ

コンテキストを指定します。音声認識中に背景テキスト、エンティティ語彙、その他の参照情報 (コンテキスト) を提供することで、カスタマイズされた結果を得ることができます。

長さ制限:10,000 トークン。

詳細については、「コンテキストバイアス」をご参照ください。

session.turn_detection

object

いいえ

音声区間検出 (VAD) の構成。

このパラメーターは VAD モードを有効または無効にします。このパラメーターを `null` に設定すると、VAD モードが無効になり、手動モードが有効になります。このパラメーターが設定されている場合、VAD モードが有効になります。

session.turn_detection.type

string

いいえ、turn_detection が存在する場合は必須です。

値は server_vad に固定されています。

session.turn_detection.threshold

float

いいえ

VAD 検出のしきい値。

デフォルト: 0.2

有効値: [-1, 1]

しきい値を低くすると VAD の感度が上がり、バックグラウンドノイズが音声と誤認される可能性があります。しきい値を高くすると感度が下がり、ノイズの多い環境での誤トリガーを減らすのに役立ちます。

session.turn_detection.silence_duration_ms

integer

いいえ

VAD エンドポイントのしきい値 (単位:ミリ秒 (ms))。このしきい値を超える無音期間は、発話の終了と見なされます。

デフォルト: 800

有効な値: [200, 6000]

300 ms などの低い値にすると、モデルはより速く応答できますが、通常の間で不自然な区切りが発生する可能性があります。1200 ms などの高い値にすると、長い文の中の間をより適切に処理できますが、全体的な応答レイテンシーが増加します。

{
    "event_id": "event_123",
    "type": "session.update",
    "session": {
        "input_audio_format": "pcm",
        "sample_rate": 16000,
        "input_audio_transcription": {
            "language": "zh",
            "corpus": {
              "text": "ASR corpus to improve model recognition performance"
            }
        },
        "turn_detection": {
            "type": "server_vad",
            "threshold": 0.5,
            "silence_duration_ms": 800
        }
    }
}

input_audio_buffer.append

音声データブロックをサーバーの入力バッファーに追加します。これはストリーミング音声のコアとなるイベントです。

シナリオ間の違い:

  • 音声区間検出 (VAD) モード:音声バッファーは音声区間検出に使用されます。サーバーは、認識のために音声をいつ送信するかを自動的に決定します。

  • 非 VAD モード:クライアントは、各イベントのオーディオデータの量を制御できます。単一の input_audio_buffer.append イベントにおける audio フィールドの最大サイズは 15 MiB です。より小さいオーディオブロックをストリーミングすると、応答が速くなります。

重要: サーバーは input_audio_buffer.append イベントに対して確認応答を送信しません。

パラメーター

必須

説明

type

string

はい

イベントタイプ。値は input_audio_buffer.append である必要があります。

event_id

string

はい

イベントの一意の ID。

audio

string

はい

Base64 でエンコードされた音声データ。

{
  "event_id": "event_2728",
  "type": "input_audio_buffer.append",
  "audio": "<audio> by base64"
}

input_audio_buffer.commit

非 VAD モードでは、このイベントは手動で認識をトリガーします。クライアントが完全な発話の送信を完了したことをサーバーに通知します。その後、サーバーは現在のバッファー内のすべての音声データを単一のユニットとして認識します。

無効になるモード:VAD モード。

処理に成功すると、サーバーは確認として <a baseurl="t3166998_v1_0_0.xdita" data-node="6184673" data-root="85183" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="8d4594abb08t5">input_audio_buffer.committed</a> イベントを送信します。

パラメーター

必須

説明

type

string

はい

イベントタイプ。値はinput_audio_buffer.commitです。

event_id

string

はい

イベント ID。

{
  "event_id": "event_789",
   "type": "input_audio_buffer.commit"
}