全部產品
Search
文件中心

:AIAgentConfig

更新時間:Feb 05, 2026

名稱

類型

描述

樣本值

object

智能體模版參數。

Greeting

string

問候語,修改後下次入會生效。預設無。

你好

WakeUpQuery

string

使用者在通話啟動前的指令,智能體在通話啟動後立即響應這一句話。

今天天氣怎麼樣?

MaxIdleTime

integer

和智能體無互動的最大等待時間,逾時智能體下線。單位:秒。預設:600 秒。

600

UserOnlineTimeout

integer

使用者未入會,智能體逾時關閉任務的時間。單位:秒。預設值:60 秒。

60

UserOfflineTimeout

integer

使用者退會後,智能體逾時關閉任務的時間。單位:秒。預設值:5 秒。

5

EnablePushToTalk

boolean

是否開啟對講機模式。預設值:false。

false

GracefulShutdown

boolean

是否優雅下線。預設 false。

優雅下線:當智能體被停止的時候,播報完當前說的話再停止,最多播報 10 秒。

false

Volume

integer

智能體說話的音量。

  • 若不填:預設使用阿里雲推薦的自適應音量模式

  • 若填寫:填寫範圍為 0~400,輸出音量=工作流程中的語音輸出音量 * volume/100。樣本:

  1. 若 volume=0,則代表輸出音量為 0。

  2. 若 volume=100,音量為原聲音量。

  3. 若 volume=200,音量等於原聲音量的 2 倍。

100

WorkflowOverrideParams

string

工作流程覆蓋參數,預設無。

{}

AvatarUrl

string

語音通話的智能體頭像的頭像連結。預設無。

http://example.com/a.jpg

AvatarUrlType

string

智能體頭像連結類型,預設無。

USER

EnableIntelligentSegment

boolean

智能斷句開關,開啟智能斷句後,使用者說話的發生斷句會智能合并成一句。預設為 true。

true

AsrConfig

object

語音辨識配置

AsrLanguageId

string

asr 語種 Id。 可選:

  • zh_mandarin 中文

  • en 英文

  • zh_en 中英混

  • es 西班牙語

  • jp 日語

zh_mandarin

AsrMaxSilence

integer

語音斷句檢測閾值,靜音時間長度超過該閾值會被認為斷句,參數範圍 200ms~1200ms,預設值 400ms。

400

AsrHotWords

array

Asr 熱詞列表。熱詞列表最大支援 128 個詞。

string

熱詞字串。字元長度: [1,10]個字元

檢查

VadLevel

integer

打斷閾值參數。取值範圍:[0,11], 預設值:11。

  • 0 表示關閉 vad 功能。

  • 1-10 設定數字越高表示越難打斷。

  • 11 與之前顯著不同,前處理對話音損傷更低,抗幹擾更強。

11

CustomParams

string

asr 自研接入透傳參數。

mode=fast&sample=16000&format=wav

VadDuration

integer

語音活動檢測的最短期間閾值,用於控制打斷的靈敏度。0 表示關閉此功能。有效範圍:200 到 2000 毫秒。常用[200,500] 對應 1-4 個字。預設為空白,不生效。

300

TtsConfig

object

語音合成配置。

VoiceId

string

音色 ID,修改後下句話生效。不填寫則使用智能體模版配置的音色 ID。僅針對預置 TTS 生效。輸入長度不超過 64。可選值參考:智能語音效果樣本

longcheng_v2

VoiceIdList

array

可選音色列表。

string

音色

zhixiaoxia

PronunciationRules

array

TTS 發音規則,數組長度不超過 20 個,規則按順序執行。

object

TTS 發音規則。

Word

string

需要替換的詞,長度小於 10,必須是中文字元,不支援空格。

一一零

Pronunciation

string

目標的發音, 長度小於 10,必須是中文字元,不支援空格。

么么零

Type

string

具體發音規則類型。 可選:

  • replacement 直接將 Word 替換為 Pronunciation 的規則。

replacement

ModelId

string

當前僅支援 minimax,可選值: speech-01-turbo / speech-02-turbo

speech-01-turbo

LanguageId

string

當前僅支援 minimax,預設為空白。增強對指定的小語種和方言的識別能力,設定後可以提升在指定小語種/方言情境下的語音表現。如果不明確小語種類型,則可以選擇"auto",模型將自主判斷小語種類型。支援以下取值:

支援語種

  • Chinese:中文

  • Chinese,Yue:粵語

  • English:英語

  • Arabic:阿拉伯語

  • Russian:俄語

  • Spanish:西班牙語

  • French:法語

  • Portuguese:葡萄牙語

  • German:德語

  • Turkish:土耳其語

  • Dutch:荷蘭語

  • Ukrainian:烏克蘭語

  • Vietnamese:越南語

  • Indonesian:印尼語

  • Japanese:日語

  • Italian:意大利語

  • Korean:韓語

  • Thai:泰語

  • Polish:波蘭語

  • Romanian:羅馬尼亞語

  • Greek:希臘語

  • Czech:捷克語

  • Finnish:芬蘭語

  • Hindi:印地語

  • auto:自動檢測

Chinese

Emotion

string

當前僅支援 minimax,minimax 當前支援 7 種情緒:

  • happy:高興

  • sad:悲傷

  • angry:憤怒

  • fearful:害怕

  • disgusted:厭惡

  • surprised:驚訝

  • calm:中性

happy

SpeechRate

number

支援全平台。 cosyvoice 預設 1.0,取值範圍:0.5-2.0。 minimax 預設 1.0, 取值範圍: 0.5-2.0。

1.0

LlmConfig

object

大語言模型配置

LlmHistory

array

llm/mllm 歷史對話上下文

object

單個對話

Role

string

表示對話參與者的角色。可選值包括:

  • user: 使用者

  • assistant: 助手

  • system: 系統

  • function: 函數

  • plugin: 外掛程式

  • tool: 工具

user

Content

string

儲存實際的對話內容文本,記錄了該角色在對話中的具體表達或回應。

你好

LlmHistoryLimit

integer

llm/mllm 歷史對話上下文最大保留輪次,預設 10 次。

10

LlmSystemPrompt

string

啟動通話後 llm 的系統提示詞。

你是一位友好且樂於助人的助手,專註於為使用者提供準確的資訊和建議。

BailianAppParams

string

阿里雲百鍊應用中心參數,類型為 JSON 字串。參數格式參考: 阿里雲百鍊應用中心參數

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文檔ID1\",\"文檔ID2\"],\"metadata_filter\":{\"name\":\"張三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"標籤1\",\"標籤2\"]}}"

OpenAIExtraQuery

string

額外的 OpenAI 協議 LLM 的查詢參數, 參數必須使用 key=value 格式,多個參數用 & 串連,所有值必須為字串類型。

api-version=2024-02-01&api-key=sk-xxx

LlmCompleteReply

boolean

開啟後,llm 回複完整結果之後,智能體會向用戶端發送完整 llm 結果。此開關不影響字幕的流式產生。

true

FunctionMap

array

功能映射列表,用於將智能體能力與 LLM 函數對應。當前只支援和使用者自訂 openai 協議 llm 的函數調用。

object

單個對應規則。

Function

string

阿里智能體系統提供的內建功能名稱。當前只支援 hangup(掛斷)。

hangup

MatchFunction

string

要與該功能對應的 LLM 函數名稱,由客戶自訂,用於在 LLM 中調用對應功能。使用者自訂 llm 協議參考: LLM 標準介面

hangup

OutputMinLength

integer

文本輸出最小長度(字元數),小於該長度的文本會被緩衝等待拼接,範圍[0, 100],0 或空表示不限制,預設空。

5

OutputMaxDelay

integer

文本輸出最大延遲時間(毫秒),超過該時間強制輸出已緩衝文本,。範圍[1000,10000],0 或空表示不限制,預設空。

2000

HistorySyncWithTTS

boolean

大模型訊息歷史,是否和 tts 播放內容保持一致。預設 false。開啟後,儲存的大模型訊息和 tts 播放內容保持一致。

false

AvatarConfig

object

數字人配置,只有當工作流程中包含數字人節點才會生效。

AvatarId

string

數字人的模型 id。

5257

InterruptConfig

object

語音打斷策略配置。

EnableVoiceInterrupt

boolean

是否支援語音打斷,預設 true。

true

InterruptWords

array

觸發對話中斷的特定詞彙或片語清單。

string

觸發對話中斷的特定詞彙或短語。

打斷一下

NoInterruptMode

string

模式下的 ASR 處理策略

  • cache: 緩衝 ASR 文本,當前輪次結束後,被緩衝的 asr 文本會在下一個輪次一起被處理。

  • discard: 直接丟棄 ASR 文本。

預設處理是緩衝 ASR 文本

cache

VoiceprintConfig

object

聲紋配置

UseVoiceprint

boolean

是否使用聲紋識別的開關。預設值:false。開啟聲紋時需要傳入合法的聲紋 Id

false

VoiceprintId

string

聲紋識別的唯一身份 ID。預設值:不填。傳入的聲紋 id 必須已經通過聲紋註冊介面註冊,介面文檔參考:註冊人聲聲紋

zhixiaoxia

RegistrationMode

string

TurnDetectionConfig

object

對話輪次檢測配置

TurnEndWords

array

用於判斷使用者輪次結束的關鍵詞列表。

string

用於判斷使用者輪次結束的關鍵詞。

我說完了

Mode

string

輪次檢測的模式。

  • Normal(預設值):普通模式,不使用 AI 判斷語義;

  • Semantic:用 AI 根據上下文語義,判斷是否說完話了。

Semantic

SemanticWaitDuration

integer

AI 模式下的停頓判定時間,單位:毫秒,預設值-1。

  • -1: AI 自動判斷合適的等待時間

  • 0-10000: 自訂等待時間,建議設定在 0-1500ms

說明

普通模式下此項無效

-1

Eagerness

string

僅在 Semantic 模式下生效。控制 AI 檢測到停頓後,啟動回應的快慢程度:

  • "Low":耐心等待,最長等待時間 6 秒,減少被打斷風險。

  • "Medium":平衡等待(最長等待時間 4 秒),適用大多數情境。

  • "High":快速響應(最長等待時間 2 秒),提升速度但可能增加誤切風險。

欄位預設空。

High

ExperimentalConfig

string

實驗功能參數,有需求請聯絡答疑。

""

VcrConfig

object

視頻識別內容功能配置,支援向用戶端回調演算法在視頻中識別的內容。

StillFrameMotion

object

畫面靜止幀檢測配置。

Enabled

boolean

是否開啟靜幀檢查,預設 false。

false

CallbackDelay

integer

靜止幀檢查延遲通知延時,設定後會在靜止幀持續一段時間後,再觸發通知。單位毫秒。預設為空白,通話會使用控制台配置。取值範圍[200,5000]。

3000

InvalidFrameMotion

object

畫面無效幀檢查參數配置。

Enabled

boolean

是否開啟無效幀檢查。

false

CallbackDelay

integer

畫面無效幀檢查延遲通知延時,設定後會在靜止幀持續一段時間後,再觸發通知。單位毫秒。預設為空白,通話會使用控制台配置。取值範圍[200,5000]。

3000

PeopleCount

object

人數統計功能配置。

Enabled

boolean

開關,預設 false。

false

Equipment

object

裝置識別配置。

Enabled

boolean

是否開啟禁用裝置檢查,預設 false

false

HeadMotion

object

頭部動作識別配置。

Enabled

boolean

是否開啟頭部動作識別檢查。預設 false

false

LookAway

object

視線位移識別配置。

Enabled

boolean

是否開啟視線位移配置。預設 false

true

AmbientSoundConfig

object

通話環境音配置。

ResourceId

string

通話環境音 ID,可以在控制台上智能體配置的進階配置中擷取。

f67901c595834************

Volume

integer

通話背景音的音量,可選值:[0, 100],0 表示關閉。

50

AutoSpeechConfig

object

智能體自動說話配置模組,包括 LLM 等待提示和使用者長時間靜默問詢。

UserIdle

object

使用者長時間靜默時的問詢播報配置。

WaitTime

integer

靜默時間長度閾值,單位毫秒,必填。超過此時間長度觸發問詢。範圍 5000–600000ms。

5000

MaxRepeats

integer

最大問詢次數,範圍 0–10,必填。超過後不再觸發,直接關閉通話。

5

Messages

array

問詢提示集合,最大 10 條,每條長度 ≤ 100 字元,機率總和為 100%。

object

問詢詞結構

Text

string

問詢提示文本,最長 100 字元。

您還在嗎?

Probability

number

提示的選擇機率,範圍 0–1,對應 0%-100%。

0.5

LlmPending

object

LLM 響應延遲時的播報配置。

WaitTime

integer

等待大模型回複時間長度閾值。超過此時間長度,觸發播報提示。必填,單位毫秒,範圍 500–10000ms。請使用者根據大模型的實際使用。

3000

Messages

array

問詢提示集合,最大 10 條,每條長度 ≤ 100 字元,機率總和為 100%。

object

問詢詞結構

Text

string

問詢提示文本,最長 100 字元。

稍等一下

Probability

number

提示的選擇機率,範圍 0–1,對應 0%-100%。

0.5

BackChannelingConfigs

array

object

Enabled

boolean

TriggerStage

string

Probability

number

Words

array

object

Text

string

Probability

number

BackChannelingConfig

array

附和語功能配置模組。開啟後,系統會在特定觸發時機隨機播報簡短的附和語。

object

單個附和語配置

Enabled

boolean

是否啟用附和功能。必填,取值 true/false。

true

TriggerStage

string

附和觸發的時機。可選值:

  • pause_detected(檢測到說話短暫停頓)

pause_detected

Probability

number

功能觸發機率。範圍 0.0–1.0。必填。

0.5

Words

array

附和短語集合。最大 10 條,每條短語長度 ≤ 20 字元,機率總和為 1.0。

object

附和短語配置

Text

string

短語文本,長度 ≤ 20 字元,支援多語言。必填。

嗯嗯

Probability

number

本短語的觸發機率,範圍 0.0–1.0,必填。

0.3