本文介紹 qwen3-livetranslate-flash-realtime API 的用戶端事件。
相關文檔:即時音視頻翻譯-通義千問。
session.update
用戶端建立 WebSocket 串連後,需首先發送該事件,用於更新會話的預設配置。
服務端收到 session.update 事件後,會校正參數。如果參數不合法,則返回錯誤;如果參數合法,則更新並返回完整的配置。
type 事件類型,固定為 | |
session 會話配置。 |
input_audio_buffer.append
向輸入音頻緩衝區追加音頻位元組。服務端使用此緩衝區檢測並決定語音提交時機。
type 事件類型,固定為 | |
audio Base 64 編碼的音頻資料。 |
input_image_buffer.append
用於將映像資料添加到映像緩衝區。映像可來自本地檔案,或從視頻流即時採集。
目前對圖片輸入有以下限制:
映像格式必須為 JPG 或 JPEG。建議解析度為 480p 或 720p以獲得最佳效能,最高不超過 1080p;
單張圖片大小不大於500KB(Base64編碼前);
圖片資料需要經過Base64編碼;
以不超過每秒 2 張的頻率向緩衝區添加映像;
發送 input_image_buffer.append 事件前,至少發送過一次 input_audio_buffer.append 事件。
type 事件類型,固定為 | |
image Base 64 編碼的映像資料。 |