|
名称 |
类型 |
描述 |
示例值 |
|---|---|---|---|
|
object |
智能体模版参数。 |
||
| Greeting |
string |
问候语,修改后下次入会生效。默认无。 |
你好 |
| WakeUpQuery |
string |
用户在通话启动前的指令,智能体在通话启动后立即响应这一句话。 |
今天天气怎么样? |
| MaxIdleTime |
integer |
和智能体无互动的最大等待时间,超时智能体下线。单位:秒。默认:600 秒。 |
600 |
| UserOnlineTimeout |
integer |
用户未入会,智能体超时关闭任务的时间。单位:秒。默认值:60 秒。 |
60 |
| UserOfflineTimeout |
integer |
用户退会后,智能体超时关闭任务的时间。单位:秒。默认值:5 秒。 |
5 |
| EnablePushToTalk |
boolean |
是否开启对讲机模式。默认值:false。 |
false |
| GracefulShutdown |
boolean |
是否优雅下线。默认 false。 优雅下线:当智能体被停止的时候,播报完当前说的话再停止,最多播报 10 秒。 |
false |
| Volume |
integer |
智能体说话的音量。
|
100 |
| WorkflowOverrideParams |
string |
工作流覆盖参数,默认无。 |
{} |
| AvatarUrl |
string |
语音通话的智能体头像的头像链接。默认无。 |
http://example.com/a.jpg |
| AvatarUrlType |
string |
智能体头像链接类型,默认无。 |
USER |
| EnableIntelligentSegment |
boolean |
智能断句开关,开启智能断句后,用户说话的发生断句会智能合并成一句。默认为 true。 |
true |
| AsrConfig |
object |
语音识别配置 |
|
| AsrLanguageId |
string |
asr 语种 Id。 可选:
|
zh_mandarin |
| AsrMaxSilence |
integer |
语音断句检测阈值,静音时长超过该阈值会被认为断句,参数范围 200ms~1200ms,默认值 400ms。 |
400 |
| AsrHotWords |
array |
Asr 热词列表。热词列表最大支持 128 个词。 |
|
|
string |
热词字符串。字符长度: [1,10]个字符 |
检查 |
|
| VadLevel |
integer |
打断阈值参数。取值范围:[0,11], 默认值:11。
|
11 |
| CustomParams |
string |
asr 自研接入透传参数。 |
mode=fast&sample=16000&format=wav |
| VadDuration |
integer |
语音活动检测的最短持续时间阈值,用于控制打断的灵敏度。0 表示关闭此功能。有效范围:200 到 2000 毫秒。常用[200,500] 对应 1-4 个字。默认为空,不生效。 |
300 |
| TtsConfig |
object |
语音合成配置。 |
|
| VoiceId |
string |
音色 ID,修改后下句话生效。不填写则使用智能体模版配置的音色 ID。仅针对预置 TTS 生效。输入长度不超过 64。可选值参考:智能语音效果示例。 |
longcheng_v2 |
| VoiceIdList |
array |
可选音色列表。 |
|
|
string |
音色 |
zhixiaoxia |
|
| PronunciationRules |
array |
TTS 发音规则,数组长度不超过 20 个,规则按顺序执行。 |
|
|
object |
TTS 发音规则。 |
||
| Word |
string |
需要替换的词,长度小于 10,必须是中文字符,不支持空格。 |
一一零 |
| Pronunciation |
string |
目标的发音, 长度小于 10,必须是中文字符,不支持空格。 |
幺幺零 |
| Type |
string |
具体发音规则类型。 可选:
|
replacement |
| ModelId |
string |
当前仅支持 minimax,可选值: speech-01-turbo / speech-02-turbo |
speech-01-turbo |
| LanguageId |
string |
当前仅支持 minimax,默认为空。增强对指定的小语种和方言的识别能力,设置后可以提升在指定小语种/方言场景下的语音表现。如果不明确小语种类型,则可以选择"auto",模型将自主判断小语种类型。支持以下取值: |
Chinese |
| Emotion |
string |
当前仅支持 minimax,minimax 当前支持 7 种情绪:
|
happy |
| SpeechRate |
number |
支持全平台。 cosyvoice 默认 1.0,取值范围:0.5-2.0。 minimax 默认 1.0, 取值范围: 0.5-2.0。 |
1.0 |
| LlmConfig |
object |
大语言模型配置 |
|
| LlmHistory |
array |
llm/mllm 历史对话上下文 |
|
|
object |
单个对话 |
||
| Role |
string |
表示对话参与者的角色。可选值包括:
|
user |
| Content |
string |
存储实际的对话内容文本,记录了该角色在对话中的具体表达或回应。 |
你好 |
| LlmHistoryLimit |
integer |
llm/mllm 历史对话上下文最大保留轮次,默认 10 次。 |
10 |
| LlmSystemPrompt |
string |
启动通话后 llm 的系统提示词。 |
你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。 |
| BailianAppParams |
string |
阿里云百炼应用中心参数,类型为 JSON 字符串。参数格式参考: 阿里云百炼应用中心参数 |
"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}" |
| OpenAIExtraQuery |
string |
额外的 OpenAI 协议 LLM 的查询参数, 参数必须使用 key=value 格式,多个参数用 & 连接,所有值必须为字符串类型。 |
api-version=2024-02-01&api-key=sk-xxx |
| LlmCompleteReply |
boolean |
开启后,llm 回复完整结果之后,智能体会向客户端发送完整 llm 结果。此开关不影响字幕的流式生成。 |
true |
| FunctionMap |
array |
功能映射列表,用于将智能体能力与 LLM 函数对应。当前只支持和用户自定义 openai 协议 llm 的函数调用。 |
|
|
object |
单个对应规则。 |
||
| Function |
string |
阿里智能体系统提供的内置功能名称。当前只支持 hangup(挂断)。 |
hangup |
| MatchFunction |
string |
要与该功能对应的 LLM 函数名称,由客户自定义,用于在 LLM 中调用对应功能。用户自定义 llm 协议参考: LLM 标准接口 |
hangup |
| OutputMinLength |
integer |
文本输出最小长度(字符数),小于该长度的文本会被缓存等待拼接,范围[0, 100],0 或空表示不限制,默认空。 |
5 |
| OutputMaxDelay |
integer |
文本输出最大延迟时间(毫秒),超过该时间强制输出已缓存文本,。范围[1000,10000],0 或空表示不限制,默认空。 |
2000 |
| HistorySyncWithTTS |
boolean |
大模型消息历史,是否和 tts 播放内容保持一致。默认 false。开启后,保存的大模型消息和 tts 播放内容保持一致。 |
false |
| AvatarConfig |
object |
数字人配置,只有当工作流中包含数字人节点才会生效。 |
|
| AvatarId |
string |
数字人的模型 id。 |
5257 |
| InterruptConfig |
object |
语音打断策略配置。 |
|
| EnableVoiceInterrupt |
boolean |
是否支持语音打断,默认 true。 |
true |
| InterruptWords |
array |
触发对话中断的特定词汇或短语列表。 |
|
|
string |
触发对话中断的特定词汇或短语。 |
打断一下 |
|
| NoInterruptMode |
string |
默认处理是缓存 ASR 文本 |
cache |
| VoiceprintConfig |
object |
声纹配置 |
|
| UseVoiceprint |
boolean |
是否使用声纹识别的开关。默认值:false。开启声纹时需要传入合法的声纹 Id |
false |
| VoiceprintId |
string |
声纹识别的唯一身份 ID。默认值:不填。传入的声纹 id 必须已经通过声纹注册接口注册,接口文档参考:注册人声声纹 |
zhixiaoxia |
| RegistrationMode |
string |
||
| TurnDetectionConfig |
object |
对话轮次检测配置 |
|
| TurnEndWords |
array |
用于判断用户轮次结束的关键词列表。 |
|
|
string |
用于判断用户轮次结束的关键词。 |
我说完了 |
|
| Mode |
string |
轮次检测的模式。
|
Semantic |
| SemanticWaitDuration |
integer |
AI 模式下的停顿判定时间,单位:毫秒,默认值-1。
说明
普通模式下此项无效 |
-1 |
| Eagerness |
string |
仅在 Semantic 模式下生效。控制 AI 检测到停顿后,启动回应的快慢程度:
字段默认空。 |
High |
| ExperimentalConfig |
string |
实验功能参数,有需求请联系答疑。 |
"" |
| VcrConfig |
object |
视频识别内容功能配置,支持向客户端回调算法在视频中识别的内容。 |
|
| StillFrameMotion |
object |
画面静止帧检测配置。 |
|
| Enabled |
boolean |
是否开启静帧检查,默认 false。 |
false |
| CallbackDelay |
integer |
静止帧检查延迟通知延时,设置后会在静止帧持续一段时间后,再触发通知。单位毫秒。默认为空,通话会使用控制台配置。取值范围[200,5000]。 |
3000 |
| InvalidFrameMotion |
object |
画面无效帧检查参数配置。 |
|
| Enabled |
boolean |
是否开启无效帧检查。 |
false |
| CallbackDelay |
integer |
画面无效帧检查延迟通知延时,设置后会在静止帧持续一段时间后,再触发通知。单位毫秒。默认为空,通话会使用控制台配置。取值范围[200,5000]。 |
3000 |
| PeopleCount |
object |
人数统计功能配置。 |
|
| Enabled |
boolean |
开关,默认 false。 |
false |
| Equipment |
object |
设备识别配置。 |
|
| Enabled |
boolean |
是否开启禁用设备检查,默认 false |
false |
| HeadMotion |
object |
头部动作识别配置。 |
|
| Enabled |
boolean |
是否开启头部动作识别检查。默认 false |
false |
| LookAway |
object |
视线偏移识别配置。 |
|
| Enabled |
boolean |
是否开启视线偏移配置。默认 false |
true |
| AmbientSoundConfig |
object |
通话环境音配置。 |
|
| ResourceId |
string |
通话环境音 ID,可以在控制台上智能体配置的高级配置中获取。 |
f67901c595834************ |
| Volume |
integer |
通话背景音的音量,可选值:[0, 100],0 表示关闭。 |
50 |
| AutoSpeechConfig |
object |
智能体自动说话配置模块,包括 LLM 等待提示和用户长时间静默问询。 |
|
| UserIdle |
object |
用户长时间静默时的问询播报配置。 |
|
| WaitTime |
integer |
静默时长阈值,单位毫秒,必填。超过此时长触发问询。范围 5000–600000ms。 |
5000 |
| MaxRepeats |
integer |
最大问询次数,范围 0–10,必填。超过后不再触发,直接关闭通话。 |
5 |
| Messages |
array |
问询提示语集合,最大 10 条,每条长度 ≤ 100 字符,概率总和为 100%。 |
|
|
object |
问询词结构 |
||
| Text |
string |
问询提示语文本,最长 100 字符。 |
您还在吗? |
| Probability |
number |
提示语的选择概率,范围 0–1,对应 0%-100%。 |
0.5 |
| LlmPending |
object |
LLM 响应延迟时的播报配置。 |
|
| WaitTime |
integer |
等待大模型回复时长阈值。超过此时长,触发播报提示。必填,单位毫秒,范围 500–10000ms。请用户根据大模型的实际使用。 |
3000 |
| Messages |
array |
问询提示语集合,最大 10 条,每条长度 ≤ 100 字符,概率总和为 100%。 |
|
|
object |
问询词结构 |
||
| Text |
string |
问询提示语文本,最长 100 字符。 |
稍等一下 |
| Probability |
number |
提示语的选择概率,范围 0–1,对应 0%-100%。 |
0.5 |
| BackChannelingConfigs |
array |
||
|
object |
|||
| Enabled |
boolean |
||
| TriggerStage |
string |
||
| Probability |
number |
||
| Words |
array |
||
|
object |
|||
| Text |
string |
||
| Probability |
number |
||
| BackChannelingConfig |
array |
附和语功能配置模块。开启后,系统会在特定触发时机随机播报简短的附和语。 |
|
|
object |
单个附和语配置 |
||
| Enabled |
boolean |
是否启用附和功能。必填,取值 true/false。 |
true |
| TriggerStage |
string |
附和触发的时机。可选值:
|
pause_detected |
| Probability |
number |
功能触发概率。范围 0.0–1.0。必填。 |
0.5 |
| Words |
array |
附和短语集合。最大 10 条,每条短语长度 ≤ 20 字符,概率总和为 1.0。 |
|
|
object |
附和短语配置 |
||
| Text |
string |
短语文本,长度 ≤ 20 字符,支持多语言。必填。 |
嗯嗯 |
| Probability |
number |
本短语的触发概率,范围 0.0–1.0,必填。 |
0.3 |