相關文檔:即時多模態。
session.update
用戶端建立 WebSocket 串連後,需首先發送該事件,用於更新會話的預設配置。服務端收到 session.update 事件後會校正參數。如果參數不合法,則返回錯誤;如果參數合法,則更新並返回完整的配置。
type string (必選) 事件類型,固定為session.update。 | {
"event_id": "event_ToPZqeobitzUJnt3QqtWg",
"type": "session.update",
"session": {
"modalities": [
"text",
"audio"
],
"voice": "Chelsie",
"input_audio_format": "pcm16",
"output_audio_format": "pcm24",
"instructions": "你是某五星級酒店的AI客服專員,請準確且友好地解答客戶關於房型、設施、價格、預訂政策的諮詢。請始終以專業和樂於助人的態度回應,杜絕提供未經證實或超出酒店服務涵蓋範圍的資訊。",
"turn_detection": {
"type": "server_vad",
"threshold": 0.5,
"silence_duration_ms": 800
}
}
}
|
session object (可選) 會話配置。 屬性 modalities array (可選) 模型輸出模態設定,可選值: ["text"] 僅輸出文本。 ["text","audio"](預設值) 輸出文本與音頻。
voice string (可選) 模型產生音訊音色,支援的音色參見音色列表。 預設音色: input_audio_format string (可選) 使用者輸入音頻格式,當前僅支援設為pcm16。 output_audio_format string (可選) 輸出音頻格式,當前僅支援設為pcm24。 smooth_output boolean|null (可選) 僅在使用 Qwen3-Omni-Flash-Realtime系列模型時生效。 是否開啟口語化回複風格。可選值: true(預設值):獲得口語化的回複;
false:獲得更書面化、正式的回複;
難以朗讀的內容可能效果不好。 null:模型自動選擇口語化或書面化的回複風格。
instructions string (可選) 系統訊息,用於設定模型的目標或角色。 turn_detection object (可選) 語音活動檢測(VAD)的配置。設定為 null 表示禁用 VAD,由使用者手動觸發模型響應。若未提供本欄位,系統將使用以下預設參數啟用 VAD。 屬性 type string (可選) 服務端VAD類型,需設定為server_vad。預設值為server_vad。 threshold float (可選) VAD的靈敏度。值越低,VAD越敏感,更容易將微弱聲音(包括背景雜音)識別為語音;值越高,越不敏感,需要更清晰、音量更大的語音才能觸發。 取值範圍在[-1.0, 1.0],預設值為 0.5。 silence_duration_ms integer (可選) 語音結束後需保持靜音的最短時間,逾時即觸發模型響應。值越低,響應越快,但可能在語音短暫停頓時誤觸發模型響應。 預設值為800,參數範圍[200, 6000]。 |
response.create
response.create 事件用於指示服務端建立模型響應。在VAD模式下,服務端會自動建立模型響應,無需發送該事件。
服務端使用 response.created 事件、一個或多個項和內容事件(如 conversation.item.created 和 response.content_part.added)進行響應,最後用一個 response.done 事件表示響應已完成。
type string (必選) 事件類型,固定為response.create。 | {
"type": "response.create",
"event_id": "event_1718624400000"
}
|
response.cancel
用戶端發送此事件用以取消進行中的響應。如果沒有任何響應可供取消,服務端將響應錯誤事件。
type string (必選) 事件類型,固定為response.cancel。 | {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "response.cancel"
}
|
input_audio_buffer.append
用於將音頻位元組追加到輸入音頻緩衝區。
type string (必選) 事件類型,固定為input_audio_buffer.append。 | {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "input_audio_buffer.append",
"audio": "UklGR..."
}
|
audio string (必選) Base 64 編碼的音頻資料。 |
input_audio_buffer.commit
用於提交使用者輸入音頻緩衝區,在對話中建立新的使用者訊息項。 如果輸入的音頻緩衝區為空白,服務端會返回錯誤事件。
提交輸入音頻緩衝區不會從模型建立響應,服務端將使用 input_audio_buffer.committed 事件進行響應。
如果用戶端發送過input_image_buffer.append事件,input_audio_buffer.commit 事件會將映像緩衝區一起提交。
type string (必選) 事件類型,固定為input_audio_buffer.commit。 | {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "input_audio_buffer.commit"
}
|
input_audio_buffer.clear
用於清除緩衝區中的音頻位元組。服務端發送input_audio_buffer.cleared 事件進行響應。
type string (必選) 事件類型,固定為input_audio_buffer.clear。 | {
"event_id": "event_xxx",
"type": "input_audio_buffer.clear"
}
|
input_image_buffer.append
用於將映像資料添加到映像緩衝區。映像可來自本地檔案,或從視頻流即時採集。
目前對圖片輸入有以下限制:
映像格式必須為 JPG 或 JPEG。建議解析度為 480p 或 720p以獲得最佳效能,最高不超過 1080p;
單張圖片大小不大於500KB(Base64編碼前);
圖片資料需要經過Base64編碼;
以不超過每秒 2 張的頻率向服務端發送映像;
發送 input_image_buffer.append 事件前,至少發送過一次 input_audio_buffer.append 事件。
映像緩衝區與音頻緩衝區一起通過input_audio_buffer.commit事件提交。
type string (必選) 事件類型,固定為input_image_buffer.append。 | {
"event_id": "event_xxx",
"type": "input_image_buffer.append",
"image": "xxx"
}
|
image string (必選) Base 64 編碼的映像資料。 |