リアルタイム AI エージェントセッション向け AIAgentConfig リファレンス - IMS - Alibaba Cloud - Intelligent Media Services

object

AI エージェントテンプレートのパラメーターです。

Greeting

string

AI エージェントが会話に参加する際に再生するウェルカムメッセージです。変更は、以降の会話に適用されます。省略した場合、ウェルカムメッセージは再生されません。

你好

WakeUpQuery

string

通話開始直後に AI エージェントが応答する、ユーザー指定のコマンドです。

今天天气怎么样？

MaxIdleTime

integer

AI エージェントが切断するまでの最大アイドル時間 (秒) です。この期間内にユーザーからの操作がない場合、エージェントはタスクを終了します。デフォルト値：600。

600

UserOnlineTimeout

integer

AI エージェントがユーザーの参加を待つ時間 (秒) です。この時間内にユーザーが参加しない場合、エージェントはタスクを終了します。デフォルト値：60。

60

UserOfflineTimeout

integer

ユーザーが会話から退出した後、AI エージェントがタスクを終了するまで待機する時間 (秒) です。デフォルト値：5。

5

EnablePushToTalk

boolean

プッシュツートークモードを有効にするかどうかを指定します。デフォルト値：`false`。

false

GracefulShutdown

boolean

グレースフルシャットダウンを有効にするかどうかを指定します。デフォルト値：`false`。

有効にすると、タスクが停止された際に、AI エージェントは現在の発話を完了してから切断します。エージェントは 10 秒を超えて発話しません。

false

Volume

integer

AI エージェントの発話ボリュームです。

設定しない場合、デフォルトで Alibaba Cloud が推奨する適応型ボリュームモードが使用されます。
設定する場合、値は 0～400 の範囲でなければなりません。最終的な出力ボリュームは、`(ワークフローのボリューム) * (volume / 100)` として計算されます。例：

`volume` が 0 の場合、出力ボリュームは 0 です。
`volume` が 100 の場合、出力ボリュームは元のボリュームと同じです。
`volume` が 200 の場合、出力ボリュームは元のボリュームの 2 倍です。

100

WorkflowOverrideParams

string

デフォルトのワークフロー構成をオーバーライドするためのパラメーターを含む JSON 文字列です。

{}

AvatarUrl

string

音声通話中に表示するアバターの URL です。省略した場合、アバターは表示されません。

http://example.com/a.jpg

AvatarUrlType

string

アバター URL のタイプです。デフォルトでは、このパラメーターは設定されません。

USER

EnableIntelligentSegment

boolean

インテリジェントセグメンテーションを有効にするかどうかを指定します。有効にすると、ユーザーの短い発話が 1 つの文にマージされます。デフォルト値：`true`。

true

AsrConfig

object

自動音声認識 (ASR) の構成です。

AsrLanguageId

string

ASR の言語。有効な値：

`zh_mandarin`：中国語 (北京語)
`en`：英語
`zh_en`：中国語-英語混合
`es`：スペイン語
`jp`：日本語

zh_mandarin

AsrMaxSilence

integer

ASR エンジンが発話を確定するまでの無音の最大持続時間 (ミリ秒) です。この値より長い無音は、文の区切りと見なされます。範囲：200～1200。デフォルト値：400。

400

AsrHotWords

array

ASR の精度を向上させるためのホットワードのリストです。最大 128 個のホットワードを指定できます。

string

ホットワードの文字列。長さ：1～10 文字。

检查

VadLevel

integer

割り込みのための音声アクティビティ検出 (VAD) のしきい値です。範囲：0～11。デフォルト値：11。

`0`：VAD を無効にします。
`1`～`10`：割り込みの感度を設定します。値が大きいほど、エージェントへの割り込みが難しくなります。
`11`：音声の歪みが少なく、ノイズ耐性が高い拡張モードです。

11

CustomParams

string

独自の ASR 統合のためのパススルーパラメーターです。

mode=fast&sample=16000&format=wav

VadDuration

integer

割り込みをトリガーするために必要なユーザーの連続した発話の最小持続時間 (ミリ秒) です。これにより、割り込みの感度を制御します。値 0 はこの機能を無効にします。範囲：200～2000。一般的な範囲は 200～500 ms で、これは通常、中国語の 1～4 文字に相当します。省略した場合、この機能は無効になります。

300

TtsConfig

object

音声合成 (TTS) の構成です。

VoiceId

string

プリセットされた TTS 音声の ID です。変更は次の発話から適用されます。省略した場合、AI エージェントテンプレートの音声が使用されます。ID の最大長は 64 文字です。利用可能な音声については、「インテリジェント音声サンプル」をご参照ください。

longcheng_v2

VoiceIdList

array

利用可能な音声のリストです。

string

音声。

zhixiaoxia

PronunciationRules

array

順に実行される TTS 発音ルールのリストです。最大 20 個のルールを指定できます。

object

TTS 発音ルールです。

Word

string

置き換え対象の単語です。長さは 1～9 文字の中国語で、スペースを含めることはできません。

一一零

Pronunciation

string

置き換え後の発音です。長さは 1～9 文字の中国語で、スペースを含めることはできません。

幺幺零

Type

string

発音ルールのタイプです。有効な値：

`replacement`：指定された `Word` を `Pronunciation` に置き換えます。

replacement

ModelId

string

このパラメーターは Minimax プロバイダーにのみ適用されます。有効な値： `speech-01-turbo`、`speech-02-turbo`

speech-01-turbo

LanguageId

string

このパラメーターは Minimax プロバイダー専用です。特定のリソースが少ない言語や方言の認識を強化します。言語が不明な場合は、`auto` に設定して自動検出します。デフォルトでは、このパラメーターは設定されません。サポートされている値は次のとおりです：

サポートされている言語

中国語
中国語、Yue：広東語
英語
アラビア語
ロシア語
スペイン語
フランス語
ポルトガル語
ドイツ語
トルコ語
オランダ語
ウクライナ語
ベトナム語
インドネシア語
日本語
イタリア語
韓国語
タイ語
ポーランド語
ルーマニア語
ギリシャ語
チェコ語
フィンランド語
ヒンディー語
auto

Chinese

Emotion

string

このパラメーターは Minimax プロバイダーにのみ適用されます。サポートされている感情は次のとおりです：

`happy`
`sad`
`angry`
`fearful`
`disgusted`
`surprised`
`calm`

happy

SpeechRate

number

話速です。値 1.0 が通常の速度です。サポートされる範囲はプロバイダーによって異なる場合があります。CosyVoice の場合、範囲は 0.5～2.0 (デフォルト：1.0) です。Minimax の場合、範囲は 0.5～2.0 (デフォルト：1.0) です。

1.0

LlmConfig

object

大規模言語モデル (LLM) の構成です。

LlmHistory

array

LLM/MLLM のための会話履歴コンテキストです。

object

単一の対話ターンです。

Role

string

会話の参加者のロール。有効な値：

`user`
`assistant`
`system`
`function`
`plugin`
`tool`

user

Content

string

このロールからのメッセージのテキストコンテンツです。

你好

LlmHistoryLimit

integer

LLM/MLLM コンテキストに含める最新の対話ターンの最大数です。デフォルト値：10。

10

LlmSystemPrompt

string

通話開始後の LLM のシステムプロンプトです。

你是一位友好且乐于助人的助手，专注于为用户提供准确的信息和建议。

BailianAppParams

string

Alibaba Cloud Model Studio のパラメーターで、JSON 文字列として提供されます。パラメーターのフォーマットについては、「Alibaba Cloud Model Studio パラメーター」をご参照ください。

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"

OpenAIExtraQuery

string

OpenAI 互換の LLM のための追加のクエリパラメーターです。パラメーターは URL クエリ文字列 (例：`key1=value1&key2=value2`) として提供する必要があります。すべての値は文字列でなければなりません。

api-version=2024-02-01&api-key=sk-xxx

LlmCompleteReply

boolean

`true` に設定すると、エージェントは LLM の応答をストリーミングするのではなく、完全に生成された後に単一のメッセージとして送信します。この設定は字幕のストリーミングには影響しません。

true

FunctionMap

array

エージェントのビルトイン関数をカスタム LLM 関数にマッピングします。現在、これはカスタムの OpenAI 互換 LLM の関数呼び出しのみをサポートしています。

object

単一のマッピングルールです。

Function

string

AI エージェントシステムが提供するビルトイン関数の名前です。現在、`hangup` のみがサポートされています。

hangup

MatchFunction

string

エージェントのビルトイン関数にマッピングされるカスタム LLM 関数の名前です。カスタム LLM プロトコルの詳細については、「LLM 標準インターフェース」をご参照ください。

hangup

OutputMinLength

integer

TTS エンジンに送信される前のテキストチャンクの最小文字数です。これより短いチャンクはバッファリングされます。範囲：0～100。値 `0` またはこのパラメーターを省略すると、バッファリングが無効になります。デフォルト：未設定。

5

OutputMaxDelay

integer

`OutputMinLength` が満たされていない場合でも、バッファリングされたテキストが TTS エンジンに送信されるまでの最大遅延時間 (ミリ秒) です。範囲：1000～10000。値 `0` またはこのパラメーターを省略すると、遅延制限が無効になります。デフォルト：未設定。

2000

HistorySyncWithTTS

boolean

LLM のメッセージ履歴を TTS (音声合成) によって再生されるコンテンツと同期させるかどうかを指定します。デフォルト値は `false` です。この機能を有効にすると、保存される LLM のメッセージが、TTS によって実際に再生されたコンテンツと一致するようになります。

説明

ユーザーがエージェントの応答に割り込んだ場合、割り込みが発生したポイントのメッセージ履歴に `<ims_agent_interrupted>` タグが挿入されます。これにより、次に LLM へ送信されるメッセージに影響が及びます。例：

[
  {"role": "user", "content": "Tell me a story."},
  {"role": "assistant", "content": "Okay, I can tell you a story about the Three Kingdoms. Would you<ims_agent_interrupted> like that?"},
  {"role": "user", "content": "Tell me a different one."}
]

false

AvatarConfig

object

アバターの構成です。この設定は、ワークフローにアバターノードが含まれている場合にのみ有効です。

AvatarId

string

アバターのモデル ID です。

5257

InterruptConfig

object

音声割り込みポリシーの構成です。

EnableVoiceInterrupt

boolean

音声割り込みを有効にするかどうかを指定します。デフォルト値：`true`。

true

InterruptWords

array

割り込みをトリガーする特定の単語またはフレーズのリストです。

string

割り込みをトリガーする特定の単語またはフレーズです。

打断一下

NoInterruptMode

string

エージェントの発話の割り込み不可の部分で発生したユーザーの発話をどのように処理するかを指定します。

`cache`：ユーザーの発話をキャッシュし、次の対話ターンで処理します。
`discard`：ユーザーの発話を破棄します。

デフォルト値：`cache`。

cache

KeepInterruptWordsForLLM

boolean

LLM に送信されるテキストに割り込みワードを含めるかどうかを指定します。デフォルト値：`false` (単語は破棄されます)。

説明

例えば、「hold on」が割り込みワードで、ユーザーが「hold on, what is the weather like today?」と発話した場合、これを `false` に設定すると、「what is the weather like today?」のみが LLM に送信されます。

true

VoiceprintConfig

object

ボイスプリント認識の構成です。

UseVoiceprint

boolean

ボイスプリント認識を有効にするかどうかを指定します。デフォルト値：`false`。`true` に設定した場合は、有効な `VoiceprintId` も提供する必要があります。

false

VoiceprintId

string

ボイスプリントの一意の識別子です。デフォルトでは設定されていません。ID は、ボイスプリント登録 API を使用して登録されたボイスプリントに対応している必要があります。詳細については、「ボイスプリントの登録」をご参照ください。

zhixiaoxia

RegistrationMode

string

ボイスプリントの登録モードです。デフォルト値：`Explicit`。

値	説明
`Explicit`	`Explicit` モードでは、ユーザーは事前にボイスプリント登録 API を使用してボイスプリントを登録する必要があります。
`Implicit`	`Implicit` モードでは、システムは会話中にユーザーの発話を自動的に収集してボイスプリントを登録します。

Explicit

TurnDetectionConfig

object

対話ターン検出の構成です。

TurnEndWords

array

ユーザーの対話ターンの終了を判断するために使用されるキーワードのリストです。

string

ユーザーの対話ターンの終了を判断するために使用されるキーワードです。

我说完了

Mode

string

対話ターン検出モードです。

`Normal` (デフォルト)：エージェントは、ユーザーのターンの終わりを検出するために無音に依存します。
`Semantic`：エージェントは AI を使用して対話のコンテキストを分析し、ユーザーが話し終えたかどうかを判断します。

Semantic

SemanticWaitDuration

integer

AI モードでの無音検出時間 (ミリ秒) です。デフォルト値：-1。

-1：AI が適切な待機時間を自動的に決定します。
0～10000：カスタムの待機時間。0～1500 ms の範囲を推奨します。

説明

このパラメーターは `Normal` モードでは効果がありません。

-1

Eagerness

string

ユーザーの無音を検出した後のエージェントの応答速度を制御します。このパラメーターは `Semantic` モードでのみ適用されます。設定値を高くすると応答は速くなりますが、ユーザーに割り込むリスクが高まります：

`Low`：最大 6 秒の待機時間で辛抱強く待ち、割り込みのリスクを低減します。
`Medium`：バランスの取れた待機時間 (最大 4 秒) で、ほとんどのシナリオに適しています。
`High`：迅速に応答 (最大 2 秒) しますが、速度が向上する一方で、不適切なターンテーキングのリスクが高まる可能性があります。

このフィールドはデフォルトで空です。

High

ExperimentalConfig

string

実験的機能のパラメーターです。サポートにお問い合わせください。

""

VcrConfig

object

ビデオコンテンツ認識の構成です。これにより、システムはビデオストリームで検出されたイベントについてクライアントにコールバックを送信できます。

StillFrameMotion

object

静止フレーム検出の構成です。

Enabled

boolean

静止フレーム検出を有効にするかどうかを指定します。デフォルト値：`false`。

false

CallbackDelay

integer

通知が送信される前にフレームが静止していなければならない持続時間 (ミリ秒) です。指定しない場合、コンソールからの設定が使用されます。範囲：200～5000。

3000

InvalidFrameMotion

object

無効フレーム検出の構成です。

Enabled

boolean

無効フレーム検出を有効にするかどうかを指定します。

false

CallbackDelay

integer

通知が送信される前に無効なフレームが持続しなければならない時間 (ミリ秒) です。指定しない場合、コンソールからの設定が使用されます。範囲：200～5000。

3000

PeopleCount

object

人数カウント機能の構成です。

Enabled

boolean

人数カウントを有効にするかどうかを指定します。デフォルト値：`false`。

false

Equipment

object

デバイス識別の構成です。

Enabled

boolean

デバイス識別を有効にするかどうかを指定します。デフォルト値：`false`。

false

HeadMotion

object

頭部動作検出の構成です。

Enabled

boolean

頭部動作検出を有効にするかどうかを指定します。デフォルト値：`false`。

false

LookAway

object

視線逸脱検出の構成です。

Enabled

boolean

視線逸脱検出を有効にするかどうかを指定します。デフォルト値：`false`。

true

AmbientSoundConfig

object

通話中の環境音の構成です。

ResourceId

string

環境音リソースの ID です。この ID は、コンソールのエージェント構成の高度な設定から取得できます。

f67901c595834************

Volume

integer

環境音のボリュームです。範囲：0～100。値 0 は音を無効にします。

50

AutoSpeechConfig

object

LLM のレイテンシーやユーザーの長時間の無音に対するプロンプトなど、エージェントの自動音声の構成です。

UserIdle

object

ユーザーが長時間無音の場合に再生するプロンプトの構成です。

WaitTime

integer

無音持続時間のしきい値 (ミリ秒) です。ユーザーがこの期間より長く無音の場合、プロンプトがトリガーされます。範囲：5000～600000。これは必須フィールドです。

5000

MaxRepeats

integer

プロンプトを繰り返すことができる最大回数です。範囲：0～10。これは必須フィールドです。制限を超えると、通話は終了します。

5

Messages

array

プロンプトメッセージのコレクションです。最大 10 個のメッセージがサポートされ、各メッセージは最大 100 文字です。すべての確率の合計は 100% になる必要があります。

object

プロンプトメッセージの構造です。

Text

string

プロンプトメッセージのテキスト。最大 100 文字です。

您还在吗？

Probability

number

このメッセージが選択される確率です。範囲：0～1 で、0%～100% に対応します。

0.5

HangupEndWord

string

ユーザーの無操作により通話を切断する前に再生される別れのメッセージです。

LlmPending

object

LLM の応答レイテンシー中に再生するプロンプトの構成です。

WaitTime

integer

LLM 応答の待機時間のしきい値です。しきい値を超えると、プロンプトが再生されます。これは必須フィールドです。単位：ms。範囲：500～10000。ご利用の LLM の実際のパフォーマンスに基づいてこの値を設定してください。

3000

Mode

string

LLM レイテンシープロンプトの処理モードです。`random`：リストからランダムなメッセージを再生します。`sequence`：メッセージを順に再生します。これは必須フィールドです。

Messages

array

プロンプトメッセージのコレクションです。最大 10 個のメッセージがサポートされ、各メッセージは最大 100 文字です。すべての確率の合計は 100% になる必要があります。

object

プロンプトメッセージの構造です。

Text

string

プロンプトメッセージのテキスト。最大 100 文字です。

稍等一下

Probability

number

このメッセージが選択される確率です。範囲：0～1 で、0%～100% に対応します。

0.5

BackChannelingConfigs

array

相槌の構成です。有効にすると、システムは特定のトリガーポイントで短い応答フレーズを再生します。

object

単一の相槌構成です。

Enabled

boolean

この相槌ルールを有効にするかどうかを指定します。これは必須フィールドです。

true

TriggerStage

string

相槌のトリガーです。有効な値：

`pause_detected`：発話中の短い無音が検出されたときにトリガーされます。

pause_detected

Probability

number

トリガー確率です。範囲：0.0～1.0。これは必須フィールドです。

0.5

Words

array

確認フレーズのコレクションです。最大 10 個のフレーズを指定できます。各フレーズは 20 文字以下で、それらの確率の合計は 1.0 になる必要があります。

object

応答フレーズの構成です。

Text

string

フレーズのテキスト。長さは 20 文字以下で、多言語をサポートします。必須項目です。

嗯嗯

Probability

number

このフレーズのトリガー確率。範囲は 0.0～1.0 です。必須項目です。

0.3

BackChannelingConfig

array

重要非推奨です。BackChannelingConfigs を使用してください。

object

単一の相槌設定

Enabled

boolean

相槌機能を有効にするかどうか。必須項目です。値は true/false です。

true

TriggerStage

string

相槌がトリガーされるタイミング。選択可能な値：

pause_detected (発話中の短い無音を検出)

pause_detected

Probability

number

機能のトリガー確率。範囲は 0.0～1.0 です。必須項目です。

0.5

Words

array

相槌フレーズのコレクション。最大 10 個のフレーズを指定でき、各フレーズの長さは 20 文字以下、確率の合計は 1.0 にする必要があります。

object

相槌フレーズの設定

Text

string

フレーズのテキスト。長さは 20 文字以下で、多言語をサポートします。必須項目です。

嗯嗯

Probability

number

このフレーズのトリガー確率。範囲は 0.0～1.0 です。必須項目です。

0.3