全部產品
Search
文件中心

Alibaba Cloud Model Studio:用戶端事件

更新時間:Nov 21, 2025

本文介紹 qwen3-livetranslate-flash-realtime API 的用戶端事件。

相關文檔:即時音視頻翻譯-通義千問

session.update

用戶端建立 WebSocket 串連後,需首先發送該事件,用於更新會話的預設配置。

服務端收到 session.update 事件後,會校正參數。如果參數不合法,則返回錯誤;如果參數合法,則更新並返回完整的配置。

type string (必選)

事件類型,固定為session.update

{
  "event_id": "event_ToPZqeobitzUJnt3QqtWg",
  "type": "session.update",
  "session": {
    "modalities": [
      "text",
      "audio"
    ],
    "voice": "Cherry",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm24",
    "input_audio_transcription": {
      "language": "en"
    },
    "translation": {
      "language": "zh"
    }
  }
}

session object (可選)

會話配置。

屬性

modalities array (可選)

模型輸出模態設定,可選值:

  • ["text"]

    僅輸出文本。

  • ["text","audio"](預設值)

    輸出文本與音頻。

voice string (可選)

產生音訊音色,可選值:支援的音色。預設值為Cherry

input_audio_transcription object (可選)

輸入音頻相關配置。

屬性

language string (可選)

翻譯源語種,可選值:支援的語種。預設值為en

input_audio_format string (可選)

使用者輸入音頻格式,當前僅支援設為pcm16

output_audio_format string (可選)

輸出音頻格式,當前僅支援設為pcm24

translation object (可選)

翻譯配置。

屬性

language string (可選)

翻譯目標語種,可選值:支援的語種。預設值為en

input_audio_buffer.append

向輸入音頻緩衝區追加音頻位元組。服務端使用此緩衝區檢測並決定語音提交時機。

type string (必選)

事件類型,固定為input_audio_buffer.append

{
    "event_id": "event_xxx",
    "type": "input_audio_buffer.append",
    "audio": "xxx"
}

audio string (必選)

Base 64 編碼的音頻資料。

input_image_buffer.append

用於將映像資料添加到映像緩衝區。映像可來自本地檔案,或從視頻流即時採集。

目前對圖片輸入有以下限制:

  • 映像格式必須為 JPG 或 JPEG。建議解析度為 480p 或 720p以獲得最佳效能,最高不超過 1080p;

  • 單張圖片大小不大於500KB(Base64編碼前);

  • 圖片資料需要經過Base64編碼;

  • 以不超過每秒 2 張的頻率向緩衝區添加映像;

  • 發送 input_image_buffer.append 事件前,至少發送過一次 input_audio_buffer.append 事件。

type string (必選)

事件類型,固定為input_image_buffer.append

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}

image string (必選)

Base 64 編碼的映像資料。