即時語音辨識-通義千問服務通過 WebSocket 通訊協定,接收即時音頻流並即時轉寫。支援VAD 模式和Manual 模式互動流程。
使用者指南:模型介紹、功能特性和範例程式碼請參見即時語音辨識-通義千問
URL
編碼時,將<model_name>替換為實際的模型。
wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime?model=<model_name>Headers
"Authorization": "bearer <your_dashscope_api_key>"VAD 模式(預設)
服務端自動檢測語音的起點和終點(斷句)。開發人員只需持續發送音頻流,服務端會在檢測到一句話結束時自動返回最終識別結果。此模式適用於即時對話、會議記錄等情境。
啟用方式:配置用戶端session.update事件的session.turn_detection參數。
服務端在檢測到語音開始時發送
input_audio_buffer.speech_started事件。用戶端通過發送
input_audio_buffer.append事件將音頻追加到緩衝區。服務端在檢測到語音結束時發送
input_audio_buffer.speech_stopped事件。服務端通過發送
input_audio_buffer.committed事件來提交輸入音頻緩衝區。服務端發送
conversation.item.created事件,其中包含從音頻緩衝區建立的使用者訊息項。服務端發送
conversation.item.input_audio_transcription.text事件,其中包含語音辨識結果。
Manual 模式
由用戶端控制斷句。用戶端需要發送完一整句話的音頻後,再發送一個input_audio_buffer.commit事件來通知服務端。此模式適用於用戶端能明確判斷語句邊界的情境,如聊天軟體中的發送語音。
啟用方式:將用戶端session.update事件的session.turn_detection設為null。
用戶端通過發送
input_audio_buffer.append事件將音頻追加到緩衝區。用戶端通過發送
input_audio_buffer.commit事件來提交輸入音頻緩衝區。 該提交會在對話中建立一個新的使用者訊息項。服務端發送
input_audio_buffer.committed事件進行響應。服務端發送
conversation.item.input_audio_transcription.text事件,其中包含語音辨識結果。