本文檔介紹在與 Qwen-ASR Realtime API 的 WebSocket 會話中,用戶端向服務端發送的事件。
使用者指南:模型介紹、功能特性和範例程式碼請參見即時語音辨識-通義千問
session.update
用於更新會話配置,建議在 WebSocket 串連建立後首先發送該事件。建議在WebSocket串連建立成功後,立即發送此事件作為互動的第一步。如果未發送,系統將使用預設配置。
服務端成功處理此事件後,會發送session.updated事件作為確認。
| |
input_audio_buffer.append
用於將音頻資料區塊追加到服務端的輸入緩衝區。這是流式發送音訊核心事件。
不同情境下的區別:
VAD 模式:音頻緩衝區用於語音活動檢測,服務端會自動決定何時提交音頻進行識別。
非VAD模式:用戶端可以控制每個事件中的音頻資料量,單個
input_audio_buffer.append事件中的audio欄位內容最大為 15 MiB。建議流式發送較小的音頻塊以獲得更快的響應。
重要提示:服務端不會對input_audio_buffer.append事件發送任何確認響應。
| |
input_audio_buffer.commit
非VAD模式下,用於手動觸發識別。此事件通知服務端,用戶端已發送完一段完整的語音,將當前緩衝區內的所有音頻資料作為一個整體進行識別。
禁用情境:VAD模式。
服務端成功處理後,會發送input_audio_buffer.committed事件作為確認響應。
| |