|
パラメーター |
タイプ |
説明 |
例 |
|---|---|---|---|
|
object |
AI エージェントのテンプレート構成。 |
||
| Greeting |
string |
エージェントが通話に参加した際に発話するウェルカムメッセージ。変更は次回セッションから有効になります。デフォルト値:なし。 |
你好 |
| WakeUpQuery |
string |
通話開始前にエージェントに与えるコマンド。通話開始直後に、このクエリに対してエージェントが応答します。 |
今天天气怎么样? |
| MaxIdleTime |
integer |
エージェントがユーザーとのインタラクションを待機してから通話を終了するまでの最大時間。単位:秒。デフォルト値:600。 |
600 |
| UserOnlineTimeout |
integer |
ユーザーがチャネルに参加しない場合に、エージェントがタスクを終了するまでのタイムアウト期間。単位:秒。デフォルト値:60。 |
60 |
| UserOfflineTimeout |
integer |
ユーザーがチャネルから退出した後、エージェントがタスクを終了するまでのタイムアウト期間。単位:秒。デフォルト値:5。 |
5 |
| EnablePushToTalk |
boolean |
プッシュ・トゥ・トークモードを有効化するかどうかを指定します。デフォルト値:false。 |
false |
| GracefulShutdown |
boolean |
グレースフルシャットダウンを有効化するかどうかを指定します。デフォルト値:false。 有効化すると、エージェントが停止される際に、現在の文の発話を完了した後に切断されます(最大 10 秒)。 |
false |
| Volume |
integer |
エージェントの発話音量。
|
100 |
| WorkflowOverrideParams |
string |
ワークフロー構成をオーバーライドするためのパラメーター。デフォルト値:なし。 |
{} |
| AvatarUrl |
string |
音声のみの通話におけるエージェントのプロフィール画像の URL。デフォルト値:なし。 |
http://example.com/a.jpg |
| AvatarUrlType |
string |
プロフィール画像の URL の種別。デフォルト値:なし。 |
USER |
| EnableIntelligentSegment |
boolean |
有効化すると、システムが短い中間セグメントを単一の文として自動的にマージします。デフォルト値:true。 |
true |
| AsrConfig |
object |
音声認識 (ASR) の構成。 |
|
| AsrLanguageId |
string |
ASR の言語 ID。有効な値:
|
zh_mandarin |
| AsrMaxSilence |
integer |
文区切りの無音しきい値。この値より長い無音期間は文の区切りと見なされます。単位:ミリ秒。デフォルト値:400。有効範囲:200 ~ 1200。 |
400 |
| AsrHotWords |
array |
ASR の認識精度を向上させるためのホットワード。最大 128 個まで登録可能です。 |
|
|
string |
ホットワード。長さ:1 ~ 10 文字。 |
检查 |
|
| VadLevel |
integer |
割り込み検出用の音声区間検出 (VAD) しきい値。有効な値:0 ~ 11。デフォルト値:11。
|
11 |
| CustomParams |
string |
ASR に渡す透過パラメーター。 |
mode=fast&sample=16000&format=wav |
| VadDuration |
integer |
0:この機能を無効化します。有効な値:200 ~ 2000。推奨値:200 ~ 500 ms(通常、1 ~ 4 単語分の長さに相当)。デフォルトではこのパラメーターは空欄であり、機能は無効化されます。 |
300 |
| TtsConfig |
object |
テキスト読み上げ (TTS) の構成。 |
|
| VoiceId |
string |
音声 ID。変更は次回の文から有効になります。未設定の場合、エージェントテンプレートで指定されたデフォルトの音声 ID が使用されます。このパラメーターは事前設定済みの TTS モデルにのみ適用されます。最大長:64 文字。利用可能なオプションについては、「音声合成のサンプル」をご参照ください。 |
longcheng_v2 |
| VoiceIdList |
array |
利用可能な音声の一覧。 |
|
|
string |
音声。 |
zhixiaoxia |
|
| PronunciationRules |
array |
発音ルール(順序通りに実行されます)。最大 20 個まで登録可能です。 |
|
|
object |
発音ルール。 |
||
| Word |
string |
置き換え対象の単語。値には最大 10 文字の中国語文字をサポートします。その他の文字(空白含む)はサポートされません。 |
一一零 |
| Pronunciation |
string |
置き換え後の発音。値には最大 10 文字の中国語文字をサポートします。その他の文字(空白含む)はサポートされません。 |
幺幺零 |
| Type |
string |
ルールの種別。有効な値:
|
replacement |
| ModelId |
string |
MiniMax モデルにのみ適用されます。有効な値:speech-01-turbo、speech-02-turbo。 |
speech-01-turbo |
| LanguageId |
string |
MiniMax モデルにのみ適用されます。デフォルトではこのパラメーターは空欄です。これにより、特定の言語や方言に対する音声認識精度が向上します。言語種別が不明な場合は、auto を指定することでモデルが自動検出を行います。 |
Chinese |
| Emotion |
string |
MiniMax モデルにのみ適用されます。7 種類の感情がサポートされています:
|
happy |
| SpeechRate |
number |
すべてのプラットフォームでサポートされます。CosyVoice のデフォルト値は 1.0 です。有効な値:0.5 ~ 2.0。MiniMax のデフォルト値は 1.0 です。有効な値:0.5 ~ 2.0。 |
1.0 |
| LlmConfig |
object |
大規模言語モデル (LLM) の構成。 |
|
| LlmHistory |
array |
LLM/MLLM の会話履歴コンテキスト。 |
|
|
object |
1 回のセッション。 |
||
| Role |
string |
会話における参加者の役割。有効な値:
|
user |
| Content |
string |
当該役割のメッセージの実際のテキスト内容。 |
你好 |
| LlmHistoryLimit |
integer |
履歴に保持する会話ターンの最大数。デフォルト値:10。 |
10 |
| LlmSystemPrompt |
string |
LLM のシステムプロンプト。 |
你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。 |
| BailianAppParams |
string |
Alibaba Cloud Model Studio アプリケーションセンターのパラメーター(JSON 形式)。詳細については、「Alibaba Cloud Model Studio アプリケーションセンターのパラメーター」をご参照ください。 |
"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}" |
| OpenAIExtraQuery |
string |
OpenAI プロトコル準拠の LLM に送信する追加クエリパラメーター(key=value 形式のクエリ文字列、& 区切り)。すべての値は文字列である必要があります。 |
api-version=2024-02-01&api-key=sk-xxx |
| LlmCompleteReply |
boolean |
true の場合、生成処理完了後に、LLM からの完全な結果を 1 回の応答でクライアントに送信します。 |
true |
| FunctionMap |
array |
エージェント機能と LLM 関数のマッピング。OpenAI プロトコルに準拠したカスタム LLM での関数呼び出しのみをサポートします。 |
|
|
object |
1 つのマッピングルール。 |
||
| Function |
string |
組み込みエージェント機能の名前。hangup のみがサポートされています。 |
hangup |
| MatchFunction |
string |
LLM 内で定義されたユーザー定義関数の名前。LLM がこの関数を呼び出すと、対応するエージェント機能がトリガーされます。詳細については、「LLM 標準インターフェイス」をご参照ください。 |
hangup |
| OutputMinLength |
integer |
テキストチャンクを送信する前にバッファーに蓄積する必要がある最小文字数。有効な値:[0, 100]。値が 0 または空文字列(デフォルト)の場合、この制限は無効になります。 |
5 |
| OutputMaxDelay |
integer |
テキストをクライアントに強制送信するまでの最大待機時間(ミリ秒)。有効な値:[1000, 10000]。値が 0 または空文字列(デフォルト)の場合、この制限は無効になります。 |
2000 |
| HistorySyncWithTTS |
boolean |
保存された LLM メッセージ履歴が、TTS によって再生される内容と一致するかどうかを指定します。デフォルト値:false。 |
false |
| AvatarConfig |
object |
アバターの構成。ワークフローにアバターノードが含まれる場合にのみ有効です。 |
|
| AvatarId |
string |
アバターのモデル ID。 |
5257 |
| InterruptConfig |
object |
音声割り込み戦略の構成。 |
|
| EnableVoiceInterrupt |
boolean |
ユーザーが話すことでエージェントを割り込ませることを許可するかどうかを指定します。デフォルト値:true。 |
true |
| InterruptWords |
array |
割り込みをトリガーする単語またはフレーズ。 |
|
|
string |
割り込みをトリガーする単語またはフレーズ。 |
打断一下 |
|
| NoInterruptMode |
string |
割り込み禁止モードにおける ASR 処理ポリシー。
デフォルト値:cache。 |
cache |
| VoiceprintConfig |
object |
ボイスプリント認識の構成。 |
|
| UseVoiceprint |
boolean |
ボイスプリント認識を有効化するかどうかを指定します。デフォルト値:false。ボイスプリント認識を有効化する場合は、有効なボイスプリント ID を指定する必要があります。 |
false |
| VoiceprintId |
string |
ボイスプリントの固有 ID。デフォルトでは空欄です。指定するボイスプリント ID は事前に登録されている必要があります。詳細については、「ボイスプリントの登録」をご参照ください。 |
zhixiaoxia |
| RegistrationMode |
string |
||
| TurnDetectionConfig |
object |
ユーザーの会話ターン終了を検出するための構成。 |
|
| TurnEndWords |
array |
ユーザーのターン終了を示すキーワード。 |
|
|
string |
ユーザーのターン終了を示すキーワード。 |
我说完了 |
|
| Mode |
string |
ターン検出モード。
|
Semantic |
| SemanticWaitDuration |
integer |
ユーザーの発話終了後、エージェントがターン終了と判断するまでの待機時間。単位:ミリ秒。デフォルト値:-1。
説明 Normal モードでは、このフィールドは無視されます。 |
-1 |
| Eagerness |
string |
Semantic モードでのみ有効です。ユーザーの発話中の無音を検出した後に、AI が応答を開始する速さを制御します。
このフィールドはデフォルトで空欄です。 |
High |
| ExperimentalConfig |
string |
実験的機能のパラメーター。詳細については、サポートにお問い合わせください。 |
"" |
| VcrConfig |
object |
動画コンテンツ認識の構成。有効化すると、システムは識別されたコンテンツの詳細を含むコールバックをクライアントに送信します。 |
|
| StillFrameMotion |
object |
静止フレーム検出の構成。 |
|
| Enabled |
boolean |
静止フレーム検出を有効化または無効化します。デフォルト値:false。 |
false |
| CallbackDelay |
integer |
静止フレーム検出イベントがトリガーされるまでの遅延時間(ミリ秒)。コールバックは、動画がこの期間静止した後にのみ送信されます。未設定の場合、コンソール構成の値が使用されます。有効な値:[200, 5000]。 |
3000 |
| InvalidFrameMotion |
object |
無効フレーム検出の構成。 |
|
| Enabled |
boolean |
無効フレーム検出を有効化または無効化します。 |
false |
| CallbackDelay |
integer |
無効フレーム検出イベントがトリガーされるまでの遅延時間(ミリ秒)。コールバックは、フレームがこの期間無効と判定された後にのみ送信されます。未設定の場合、コンソール構成の値が使用されます。有効な値:[200, 5000]。 |
3000 |
| PeopleCount |
object |
人物カウント機能の構成。 |
|
| Enabled |
boolean |
この機能を有効化または無効化します。デフォルト値:false。 |
false |
| Equipment |
object |
デバイス識別の構成。 |
|
| Enabled |
boolean |
デバイス無効化チェックを有効化できます。デフォルトでは、この機能は無効化されています。 |
false |
| HeadMotion |
object |
頭部動き検出の構成。 |
|
| Enabled |
boolean |
頭部動き検出を有効化または無効化します。デフォルト値:false。 |
false |
| LookAway |
object |
ユーザーが画面から目をそらしていることを検出するための構成。 |
|
| Enabled |
boolean |
この機能を有効化または無効化します。デフォルト値:false。 |
true |
| AmbientSoundConfig |
object |
通話中に再生される環境音の構成。 |
|
| ResourceId |
string |
環境音の ID。この ID は、コンソール内のエージェント構成の詳細設定セクションから取得できます。 |
f67901c595834************ |
| Volume |
integer |
環境音の音量。有効な値:[0, 100]。値が 0 の場合、環境音は無効化されます。 |
50 |
| AutoSpeechConfig |
object |
LLM の応答遅延時やユーザーの無音時に、エージェントが能動的に発話するイベントを管理します。 |
|
| UserIdle |
object |
ユーザーが長時間無音であった場合に再生するプロンプトの構成。 |
|
| WaitTime |
integer |
必須。プロンプトをトリガーするユーザーの無音期間(ミリ秒)。範囲:5000 ~ 600000。 |
5000 |
| MaxRepeats |
integer |
必須。ユーザーへのプロンプト再生の最大回数。この上限に達すると、通話は終了します。範囲:0 ~ 10。 |
5 |
| Messages |
array |
再生するプロンプトのコレクション。制約:最大 10 個、各プロンプトは 100 文字以内。確率の合計は 100% である必要があります。 |
|
|
object |
プロンプトの構造。 |
||
| Text |
string |
プロンプトのテキスト。最大長:100 文字。 |
您还在吗? |
| Probability |
number |
このプロンプトが選択される確率。範囲:0 ~ 1。 |
0.5 |
| LlmPending |
object |
LLM の応答待ち時に再生するプロンプトの構成。 |
|
| WaitTime |
integer |
必須。プロンプトを再生するまでの LLM 応答待ち時間(ミリ秒)。この値は、実際の LLM のレイテンシーに基づいて設定する必要があります。範囲:500 ~ 10000。 |
3000 |
| Messages |
array |
プロンプトのコレクション。制約:最大 10 個。確率の合計は 100% である必要があります。 |
|
|
object |
プロンプトの構造。 |
||
| Text |
string |
プロンプトのテキスト。最大長:100 文字。 |
稍等一下 |
| Probability |
number |
このプロンプトが選択される確率。範囲:0 ~ 1。 |
0.5 |
| BackChannelingConfigs |
array |
||
|
object |
|||
| Enabled |
boolean |
||
| TriggerStage |
string |
||
| Probability |
number |
||
| Words |
array |
||
|
object |
|||
| Text |
string |
||
| Probability |
number |
||
| BackChannelingConfig |
array |
有効化すると、システムは「うんうん」「わかりました」などの短い肯定的なフレーズを再生し、能動的な聞き取りを模倣します。 |
|
|
object |
バックチャネリング構成 |
||
| Enabled |
boolean |
必須。バックチャネリング機能を有効化または無効化します。有効な値:true、false。 |
true |
| TriggerStage |
string |
バックチャネリングフレーズをトリガーするイベント。有効な値:
|
pause_detected |
| Probability |
number |
必須。イベント発生時にバックチャネリング機能をトリガーする確率。範囲:0 ~ 1。 |
0.5 |
| Words |
array |
バックチャネリングフレーズのコレクション。制約:最大 10 個。確率の合計は 1.0 である必要があります。 |
|
|
object |
フレーズの構成。 |
||
| Text |
string |
必須。フレーズのテキスト。複数の言語をサポートします。最大長:20 文字。 |
嗯嗯 |
| Probability |
number |
必須。この特定のフレーズが選択される確率。範囲:0 ~ 1。 |
0.3 |