|
パラメーター |
タイプ |
説明 |
例 |
|---|---|---|---|
|
object |
AI エージェントの構成を指定します。 |
||
| Greeting |
string |
会話の開始時に AI エージェントが配信する挨拶です。この値への変更は、次の会話で有効になります。デフォルトでは、挨拶は使用されません。 |
你好 |
| WakeUpQuery |
string |
会話が開始されると、AI エージェントがすぐにレスポンスするユーザー定義のクエリです。 |
今天天气怎么样? |
| MaxIdleTime |
integer |
最大アイドル時間 (秒単位) です。会話がこの期間アイドル状態のままである場合、エージェントは自動的に会話を終了します。デフォルト:600。 |
600 |
| UserOnlineTimeout |
integer |
エージェントがユーザーの参加を待つ時間 (秒単位) です。この期間内にユーザーが参加しない場合、エージェントは会話を終了します。デフォルト:60。 |
60 |
| UserOfflineTimeout |
integer |
ユーザーが退出した後、AI エージェントが会話を終了するまでのタイムアウト時間 (秒単位) です。デフォルト:5。 |
5 |
| EnablePushToTalk |
boolean |
プッシュツートークモードを有効にするかどうかを指定します。デフォルト: |
false |
| GracefulShutdown |
boolean |
グレースフルシャットダウンを有効にするかどうかを指定します。デフォルト: 有効にすると、会話が終了した場合、AI エージェントは切断する前に現在の発話を完了します。エージェントは最大 10 秒間話します。 |
false |
| Volume |
integer |
AI エージェントの話すボリュームです。
|
100 |
| WorkflowOverrideParams |
string |
ワークフロー構成をオーバーライドするパラメーターを指定します。デフォルトでは、これは設定されていません。 |
{} |
| AvatarUrl |
string |
音声のみの通話における AI エージェントのプロフィール画像の URL です。デフォルトでは、画像は指定されていません。 |
http://example.com/a.jpg |
| AvatarUrlType |
string |
プロフィール画像の URL のタイプです。デフォルトでは、これは設定されていません。 |
USER |
| EnableIntelligentSegment |
boolean |
インテリジェントな文分割を有効にするかどうかを指定します。有効にすると、システムは短く連続したユーザーの発話をインテリジェントに 1 つの文にマージします。デフォルト: |
true |
| AsrConfig |
object |
自動音声認識 (ASR) の構成を指定します。 |
|
| AsrLanguageId |
string |
ASR の言語 ID です。有効値:
|
zh_mandarin |
| AsrMaxSilence |
integer |
文分割のための無音検出のしきい値です。この持続時間より長い無音期間は、文の区切りをトリガーします。単位:ミリ秒。有効値:200~1200。デフォルト:400。 |
400 |
| AsrHotWords |
array |
ASR の精度を向上させるためのホットワードのリストです。最大 128 個のホットワードを指定できます。 |
|
|
string |
ホットワードです。文字列の長さは 1~10 文字である必要があります。 |
检查 |
|
| VadLevel |
integer |
割り込みに対する音声区間検出 (VAD) の感度をコントロールします。値が高いほど、エージェントへの割り込みが難しくなります。有効値:0~11。デフォルト:11。
|
11 |
| CustomParams |
string |
カスタム ASR 統合のためのパススルーパラメータを指定します。 |
mode=fast&sample=16000&format=wav |
| VadDuration |
integer |
割り込みをトリガーするために必要な音声アクティビティの最小持続時間 (ミリ秒単位) です。これは割り込み感度の制御に役立ちます。値 0 はこの特徴量を無効にします。有効値:200~2000。一般的な設定は 200~500 で、これは 1~4 単語に相当します。デフォルトでは、このパラメーターは設定されておらず、特徴量はアクティブではありません。 |
300 |
| TtsConfig |
object |
テキスト読み上げ (TTS) の構成を指定します。 |
|
| VoiceId |
string |
合成に使用する音声の ID です。変更は次の発話で有効になります。指定しない場合、エージェントはテンプレートのデフォルト音声を使用します。このパラメーターは、プリセットの TTS 音声にのみ適用されます。最大長:64 文字。利用可能な値については、「音声デモ」をご参照ください。 |
longcheng_v2 |
| VoiceIdList |
array |
利用可能な音声のリストです。 |
|
|
string |
音声 ID です。 |
zhixiaoxia |
|
| PronunciationRules |
array |
TTS の発音ルールのリストで、順次適用されます。最大 20 個のルールを指定できます。 |
|
|
object |
TTS の発音ルールです。 |
||
| Word |
string |
置き換える単語です。漢字で構成され、10 文字以下で、スペースを含まない必要があります。 |
一一零 |
| Pronunciation |
string |
単語のターゲットとなる発音です。漢字で構成され、10 文字以下で、スペースを含まない必要があります。 |
幺幺零 |
| Type |
string |
発音ルールのタイプです。 有効値:
|
replacement |
| ModelId |
string |
モデル ID を指定します。現在、minimax モデルのみがサポートされています。有効値: |
speech-01-turbo |
| LanguageId |
string |
言語 ID を指定します。現在、minimax モデルのみがサポートされています。デフォルトでは、このパラメーターは空です。このパラメーターを設定すると、指定した言語または方言のパフォーマンスが向上します。言語が不明な場合は、値を "auto" に設定して自動検出を有効にします。サポートされている値は次のとおりです: |
Chinese |
| Emotion |
string |
合成音声の感情を指定します。現在、minimax モデルのみがこの特徴量をサポートしています。有効値:
|
happy |
| SpeechRate |
number |
話速です。すべてのプラットフォームでサポートされています。 |
1.0 |
| LlmConfig |
object |
大規模言語モデル (LLM) の構成を指定します。 |
|
| LlmHistory |
array |
LLM/MLLM の会話履歴コンテキストです。 |
|
|
object |
会話における単一のターンです。 |
||
| Role |
string |
会話における参加者のロールです。有効値:
|
user |
| Content |
string |
指定されたロールのメッセージのテキストコンテンツです。 |
你好 |
| LlmHistoryLimit |
integer |
LLM/MLLM 履歴に保持する会話ターンの最大数です。デフォルト:10。 |
10 |
| LlmSystemPrompt |
string |
呼び出し開始時の LLM のシステムプロンプトです。 |
你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。 |
| BailianAppParams |
string |
Alibaba Cloud Model Studio (Bailian) アプリケーションのパラメーターで、JSON 文字列としてフォーマットされます。パラメーターフォーマットの詳細については、 Alibaba Cloud Model Studio (Bailian) アプリケーションパラメーターをご参照ください。 |
"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}" |
| OpenAIExtraQuery |
string |
OpenAI 互換 LLM の追加のクエリパラメーターです。パラメーターは |
api-version=2024-02-01&api-key=sk-xxx |
| LlmCompleteReply |
boolean |
有効にすると、AI エージェントは完全なレスポンスが生成された後、完全な LLM の結果をクライアントに送信します。この設定は字幕のストリーミングには影響しません。 |
true |
| FunctionMap |
array |
AI エージェントの機能を LLM 関数に関連付けるために使用される関数マッピングのリストです。これは現在、ユーザー定義の OpenAI 互換 LLM での関数呼び出しでのみサポートされています。 |
|
|
object |
単一のマッピングルールです。 |
||
| Function |
string |
AI エージェントシステムによって提供されるビルトイン関数の名前です。現在、 |
hangup |
| MatchFunction |
string |
エージェントのビルトイン関数に対応するユーザー定義の LLM 関数名です。カスタム LLM プロトコルの詳細については、「LLM 標準インターフェイス」をご参照ください。 |
hangup |
| OutputMinLength |
integer |
テキスト出力チャンクの最小文字長です。この値より短いテキストはバッファリングされます。有効値:0~100。値 0 または空の値 (デフォルト) はこの制限を無効にします。 |
5 |
| OutputMaxDelay |
integer |
バッファリングされたテキストが強制的に送信されるまでの最大遅延時間 (ミリ秒単位) です。有効値:1000~10000。値 0 または空の値 (デフォルト) はこの制限を無効にします。 |
2000 |
| HistorySyncWithTTS |
boolean |
LLM メッセージ履歴を TTS によって再生されたコンテンツと同期するかどうかを指定します。デフォルト: 説明
ユーザーが AI エージェントに割り込むと、システムはアシスタントのメッセージ履歴の割り込みポイントに
|
false |
| AvatarConfig |
object |
アバターの構成です。これは、ワークフローにアバターノードが含まれている場合にのみ有効になります。 |
|
| AvatarId |
string |
アバターのモデル ID です。 |
5257 |
| InterruptConfig |
object |
音声割り込み戦略の構成を指定します。 |
|
| EnableVoiceInterrupt |
boolean |
音声割り込みを許可するかどうかを指定します。デフォルト: |
true |
| InterruptWords |
array |
会話の割り込みをトリガーする特定の単語またはフレーズのリストです。 |
|
|
string |
会話の割り込みをトリガーする特定の単語またはフレーズです。 |
打断一下 |
|
| NoInterruptMode |
string |
割り込みが無効になっている場合の ASR 処理ポリシーです。
デフォルトでは、ASR テキストはキャッシュされます。 |
cache |
| KeepInterruptWordsForLLM |
boolean |
LLM に送信されるテキストに割り込みキーワードを含めるかどうかを指定します。デフォルト: |
|
| VoiceprintConfig |
object |
声紋認識の構成を指定します。 |
|
| UseVoiceprint |
boolean |
声紋認識を有効にするかどうかを指定します。デフォルト: |
false |
| VoiceprintId |
string |
声紋認識のための一意の ID です。デフォルトでは、これは設定されていません。提供された声紋 ID を登録する必要があります。詳細については、「声紋の登録」をご参照ください。 |
zhixiaoxia |
| RegistrationMode |
string |
||
| TurnDetectionConfig |
object |
会話ターンの検出構成を指定します。 |
|
| TurnEndWords |
array |
ユーザーのターンの終わりを示すキーワードのリストです。 |
|
|
string |
ユーザーのターンの終わりを示すキーワードです。 |
我说完了 |
|
| Mode |
string |
ターン検出のモードです。
|
Semantic |
| SemanticWaitDuration |
integer |
AI モードでのポーズ検出時間です。単位:ミリ秒。デフォルト:-1。
説明
このパラメーターは |
-1 |
| Eagerness |
string |
ポーズを検出した後に AI がどれだけ迅速に応答するかを制御します。このパラメーターは
デフォルトでは、このパラメーターは設定されていません。 |
High |
| ExperimentalConfig |
string |
実験的な特徴量のためのパラメーターです。これを使用する必要がある場合は、サポートにお問い合わせください。 |
"" |
| VcrConfig |
object |
ビデオコンテンツ認識の構成で、ビデオストリームで識別されたコンテンツに関するコールバックをクライアントに送信します。 |
|
| StillFrameMotion |
object |
静止画検出の構成を指定します。 |
|
| Enabled |
boolean |
静止画検出を有効にするかどうかを指定します。デフォルト: |
false |
| CallbackDelay |
integer |
静止画検出イベントがトリガーされるまでの遅延時間 (ミリ秒単位) です。システムは、フレームがこの期間静止した後にのみ通知を送信します。設定されていない場合は、コンソール構成の値が使用されます。有効値:200~5000。 |
3000 |
| InvalidFrameMotion |
object |
無効フレーム検出のパラメーターを指定します。 |
|
| Enabled |
boolean |
無効フレーム検出を有効にするかどうかを指定します。デフォルト: |
false |
| CallbackDelay |
integer |
無効フレーム検出イベントがトリガーされるまでの遅延時間 (ミリ秒単位) です。システムは、フレームがこの期間無効であった後にのみ通知を送信します。設定されていない場合は、コンソール構成の値が使用されます。有効値:200~5000。 |
3000 |
| PeopleCount |
object |
人数カウント特徴量の構成です。 |
|
| Enabled |
boolean |
特徴量を有効にするかどうかを指定します。デフォルト: |
false |
| Equipment |
object |
デバイス識別の構成です。 |
|
| Enabled |
boolean |
禁止されているデバイスをチェックするかどうかを指定します。デフォルト: |
false |
| HeadMotion |
object |
頭部動作検出の構成です。 |
|
| Enabled |
boolean |
頭部動作検出を有効にするかどうかを指定します。デフォルト: |
false |
| LookAway |
object |
視線逸脱検出の構成です。 |
|
| Enabled |
boolean |
視線逸脱検出を有効にするかどうかを指定します。デフォルト: |
true |
| AmbientSoundConfig |
object |
環境音の構成を指定します。 |
|
| ResourceId |
string |
環境音の ID です。この ID は、コンソールのエージェント設定の詳細設定セクションから取得できます。 |
f67901c595834************ |
| Volume |
integer |
環境音のボリュームです。有効値:0~100。値 0 は音を無効にします。 |
50 |
| AutoSpeechConfig |
object |
LLM の遅延中やユーザーが沈黙しているときにプロンプトを再生するなど、エージェントのプロアクティブな発話イベントを管理します。 |
|
| UserIdle |
object |
ユーザーが長期間アイドル状態の場合のプロンプトです。 |
|
| WaitTime |
integer |
プロンプトをトリガーするアイドル時間のしきい値 (ミリ秒単位) です。必須。有効値:5000~600000。 |
5000 |
| MaxRepeats |
integer |
ユーザーにプロンプトを表示する最大回数です。この制限に達すると、呼び出しは終了します。必須。有効値:0~10。 |
5 |
| Messages |
array |
最大 10 個のクエリプロンプトのコレクションです。各プロンプトは 100 文字以下である必要があります。すべての確率の合計は 100% である必要があります。 |
|
|
object |
プロンプトとその確率です。 |
||
| Text |
string |
プロンプトのテキストです。最大長:100 文字。 |
您还在吗? |
| Probability |
number |
このプロンプトが選択される確率です。有効値:0.0~1.0。 |
0.5 |
| LlmPending |
object |
LLM の応答遅延中に再生されるプロンプトの構成です。 |
|
| WaitTime |
integer |
LLM の応答時間のしきい値 (ミリ秒単位) です。応答時間がこの値を超えると、プロンプトが再生されます。必須。有効値:500~10000。ご利用の LLM の実際のパフォーマンスに基づいて設定してください。 |
3000 |
| Messages |
array |
プロンプトのリストです。最大 10 個のプロンプトを指定でき、各プロンプトの最大長は 100 文字です。すべてのプロンプトの確率の合計は 1.0 である必要があります。 |
|
|
object |
プロンプトとその確率です。 |
||
| Text |
string |
プロンプトのテキストです。最大長:100 文字。 |
稍等一下 |
| Probability |
number |
このプロンプトが選択される確率です。有効値:0.0~1.0。 |
0.5 |
| BackChannelingConfigs |
array |
相槌の構成で、特定のトリガーで短い肯定的なフレーズを再生して、ユーザーの発話を認識します。 |
|
|
object |
単一の相槌の構成です。 |
||
| Enabled |
boolean |
この相槌ルールを有効にするかどうかを指定します。必須。 |
true |
| TriggerStage |
string |
相槌フレーズのトリガーです。有効値:
|
pause_detected |
| Probability |
number |
このルールがトリガーされる確率です。必須。有効値:0.0~1.0。 |
0.5 |
| Words |
array |
相槌フレーズのリストです。最大 10 個のフレーズを指定でき、各フレーズの最大長は 20 文字です。すべてのフレーズの確率の合計は 1.0 である必要があります。 |
|
|
object |
相槌フレーズとその確率です。 |
||
| Text |
string |
フレーズのテキストです。必須。最大長:20 文字。多言語対応。 |
嗯嗯 |
| Probability |
number |
このフレーズが選択される確率です。必須。有効値:0.0~1.0。 |
0.3 |
| BackChannelingConfig |
array |
重要 このパラメーターは非推奨です。代わりに BackChannelingConfigs を使用してください。 |
|
|
object |
単一の相槌の構成です。 |
||
| Enabled |
boolean |
この相槌ルールを有効にするかどうかを指定します。必須。 |
true |
| TriggerStage |
string |
相槌応答のトリガータイミングです。有効値:
|
pause_detected |
| Probability |
number |
特徴量がトリガーされる確率です。有効値は 0.0~1.0 です。このパラメーターは必須です。 |
0.5 |
| Words |
array |
最大 10 個の相槌フレーズのコレクションです。各フレーズは 20 文字以下である必要があります。確率の合計は 1.0 である必要があります。 |
|
|
object |
相槌フレーズの構成です。 |
||
| Text |
string |
フレーズのテキストです。最大長は 20 文字です。多言語がサポートされています。このパラメーターは必須です。 |
嗯嗯 |
| Probability |
number |
このフレーズがトリガーされる確率です。値は 0.0~1.0 の範囲である必要があります。このパラメーターは必須です。 |
0.3 |