全部產品
Search
文件中心

Alibaba Cloud Model Studio:即時語音辨識(Qwen-ASR-Realtime)互動流程

更新時間:Nov 14, 2025

即時語音辨識-通義千問服務通過 WebSocket 通訊協定,接收即時音頻流並即時轉寫。支援VAD 模式Manual 模式互動流程。

使用者指南:模型介紹、功能特性和範例程式碼請參見即時語音辨識-通義千問

URL

編碼時,將<model_name>替換為實際的模型

wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime?model=<model_name>

Headers

"Authorization": "bearer <your_dashscope_api_key>"

VAD 模式(預設)

服務端自動檢測語音的起點和終點(斷句)。開發人員只需持續發送音頻流,服務端會在檢測到一句話結束時自動返回最終識別結果。此模式適用於即時對話、會議記錄等情境。

啟用方式:配置用戶端session.update事件的session.turn_detection參數。

Manual 模式

由用戶端控制斷句。用戶端需要發送完一整句話的音頻後,再發送一個input_audio_buffer.commit事件來通知服務端。此模式適用於用戶端能明確判斷語句邊界的情境,如聊天軟體中的發送語音。

啟用方式:將用戶端session.update事件的session.turn_detection設為null。