全部產品
Search
文件中心

Alibaba Cloud Model Studio:即時語音辨識(Paraformer)用戶端事件

更新時間:May 19, 2026

本文介紹 Paraformer 即時語音辨識服務中用戶端通過 WebSocket 發送給服務端的用戶端事件,包括 run-task(啟動任務)和 finish-task(結束任務)兩類指令的資料結構與欄位含義。

使用者指南:關於模型介紹和選型建議請參見語音辨識

事件互動流程:如需瞭解事件互動時序,請參見WebSocket API

run-task

說明:啟動語音辨識任務,設定模型、音頻格式、採樣率等參數。

發送時機:建立 WebSocket 串連後立即發送。

響應事件:服務端返回 task-started 事件後才能發送音頻。

header object (必選)

屬性

action string (必選)

指令類型,固定為 run-task

task_id string (必選)

用戶端產生的任務 ID(UUID 格式),用於關聯後續事件。

streaming string (必選)

固定為 duplex

{
    "header": {
        "action": "run-task",
        "task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "task_group": "audio",
        "task": "asr",
        "function": "recognition",
        "model": "paraformer-realtime-v2",
        "parameters": {
            "format": "pcm",
            "sample_rate": 16000,
            "disfluency_removal_enabled": false,
            "language_hints": [
                "en"
            ]
        },
        "input": {}
    }
}

payload object (必選)

屬性

task_group string (必選)

工作群組,固定為 audio

task string (必選)

任務類型,固定為 asr

function string (必選)

功能類型。固定為recognition

model string (必選)

模型名稱。

input object (必選)

固定為{}

parameters object (必選)

語音辨識參數。

屬性

format string (必選)

音頻格式。

取值範圍:

  • pcm

  • wav

  • mp3

  • opus

  • speex

  • aac

  • amr

重要

Paraformer須遵循如下約束:

  • opus/speex:必須使用Ogg封裝

  • wav:必須為PCM編碼

  • amr:僅支援AMR-NB類型

sample_rate integer (必選)

採樣率(Hz)。

取值範圍:

  • Paraformer(因模型而異):

    • paraformer-realtime-v2:支援任意採樣率

    • paraformer-realtime-8k-v2:僅支援 8000 Hz

vocabulary_id string (可選)

熱詞列表 ID。

disfluency_removal_enabled boolean (可選)

重要

僅Paraformer支援該參數。

是否過濾語氣詞。

預設值:false。

language_hints array[string] (可選)

待識別音頻語種。無預設值,不設定時模型自動識別。

取值範圍:

  • Paraformer:

    • zh: 中文

    • en: 英文

    • ja: 日語

    • yue: 粵語

    • ko: 韓語

    • de:德語

    • fr:法語

    • ru:俄語

semantic_punctuation_enabled boolean (可選)

重要

僅Paraformer(v2)支援該參數。

是否啟用語義斷句。

預設值:false。

  • true:開啟語義斷句,關閉 VAD 斷句。

  • false(預設):開啟 VAD 斷句,關閉語義斷句。

語義斷句準確性更高,適合會議轉寫情境;VAD(Voice Activity Detection,語音活動檢測)斷句延遲較低,適合互動情境。

max_sentence_silence integer (可選)

重要
  • 僅Paraformer(v2)支援該參數。

  • 僅在semantic_punctuation_enabled參數為false時生效。

VAD 斷句靜音閾值(ms)。當一段語音後的靜音時間長度超過該閾值時,系統會判定該句子已結束。

預設值:1300。

取值範圍:[200, 6000]。

multi_threshold_mode_enabled boolean (可選)

重要
  • 僅Paraformer(v2)支援該參數。

  • 僅在semantic_punctuation_enabled參數為false時生效。

是否啟用多閾值模式。啟用後可防止 VAD 斷句切割過長。

預設值:false。

punctuation_prediction_enabled boolean (可選)

重要

僅Paraformer(v2)支援該參數。

是否在識別結果中添加標點符號。

預設值:true。

heartbeat boolean (可選)

重要

僅Paraformer(v2)支援該參數。

是否啟用心跳包。

預設值:false。

  • true:在持續發送靜音音訊情況下,可保持與服務端的串連不中斷。

  • false(預設):即使持續發送靜音音頻,串連也將在60秒後因逾時而斷開。

inverse_text_normalization_enabled boolean (可選)

重要

僅Paraformer(v2)支援該參數。

是否啟用逆文本正則化(ITN)。啟用後,中文數字將轉換為阿拉伯數字。

預設值:true。

finish-task

說明:通知服務端音頻發送完畢,請求結束任務。

發送時機:所有音頻資料發送完畢後。

響應事件:服務端返回 task-finished 事件。

header object (必選)

屬性

action string (必選)

指令類型,固定為 finish-task

task_id string (必選)

用戶端產生的任務 ID(UUID 格式),需與run-task事件中的 task_id 保持一致。

streaming string (必選)

固定為 duplex

{
    "header": {
        "action": "finish-task",
        "task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "input": {}
    }
}

payload object (必選)

屬性

input object (必選)

固定為{}