すべてのプロダクト
Search
ドキュメントセンター

:AIAgentConfig

最終更新日:Mar 20, 2026

パラメーター

タイプ

説明

object

AI エージェントの構成を指定します。

Greeting

string

会話の開始時に AI エージェントが配信する挨拶です。この値への変更は、次の会話で有効になります。デフォルトでは、挨拶は使用されません。

你好

WakeUpQuery

string

会話が開始されると、AI エージェントがすぐにレスポンスするユーザー定義のクエリです。

今天天气怎么样?

MaxIdleTime

integer

最大アイドル時間 (秒単位) です。会話がこの期間アイドル状態のままである場合、エージェントは自動的に会話を終了します。デフォルト:600。

600

UserOnlineTimeout

integer

エージェントがユーザーの参加を待つ時間 (秒単位) です。この期間内にユーザーが参加しない場合、エージェントは会話を終了します。デフォルト:60。

60

UserOfflineTimeout

integer

ユーザーが退出した後、AI エージェントが会話を終了するまでのタイムアウト時間 (秒単位) です。デフォルト:5。

5

EnablePushToTalk

boolean

プッシュツートークモードを有効にするかどうかを指定します。デフォルト:false

false

GracefulShutdown

boolean

グレースフルシャットダウンを有効にするかどうかを指定します。デフォルト:false

有効にすると、会話が終了した場合、AI エージェントは切断する前に現在の発話を完了します。エージェントは最大 10 秒間話します。

false

Volume

integer

AI エージェントの話すボリュームです。

  • このパラメーターを設定しない場合、エージェントはデフォルトで適応ボリュームモードを使用します。

  • このパラメーターが設定されている場合、有効値は 0 から 400 です。最終的な出力ボリュームは次のように計算されます:(ワークフロー出力ボリューム * Volume) / 100

  1. Volume0 の場合、出力はミュートされます。

  2. Volume100 の場合、出力ボリュームは変更されません。

  3. Volume200 の場合、出力ボリュームは 2 倍になります。

100

WorkflowOverrideParams

string

ワークフロー構成をオーバーライドするパラメーターを指定します。デフォルトでは、これは設定されていません。

{}

AvatarUrl

string

音声のみの通話における AI エージェントのプロフィール画像の URL です。デフォルトでは、画像は指定されていません。

http://example.com/a.jpg

AvatarUrlType

string

プロフィール画像の URL のタイプです。デフォルトでは、これは設定されていません。

USER

EnableIntelligentSegment

boolean

インテリジェントな文分割を有効にするかどうかを指定します。有効にすると、システムは短く連続したユーザーの発話をインテリジェントに 1 つの文にマージします。デフォルト:true

true

AsrConfig

object

自動音声認識 (ASR) の構成を指定します。

AsrLanguageId

string

ASR の言語 ID です。有効値:

  • zh_mandarin:中国語

  • en:英語

  • zh_en:中国語と英語

  • es:スペイン語

  • jp:日本語

zh_mandarin

AsrMaxSilence

integer

文分割のための無音検出のしきい値です。この持続時間より長い無音期間は、文の区切りをトリガーします。単位:ミリ秒。有効値:200~1200。デフォルト:400。

400

AsrHotWords

array

ASR の精度を向上させるためのホットワードのリストです。最大 128 個のホットワードを指定できます。

string

ホットワードです。文字列の長さは 1~10 文字である必要があります。

检查

VadLevel

integer

割り込みに対する音声区間検出 (VAD) の感度をコントロールします。値が高いほど、エージェントへの割り込みが難しくなります。有効値:0~11。デフォルト:11。

  • 0:VAD を無効にします。

  • 110:割り込みの感度を調整します。

  • 11:耐ノイズ性が向上し、音質への影響が少ない拡張モードです。

11

CustomParams

string

カスタム ASR 統合のためのパススルーパラメータを指定します。

mode=fast&sample=16000&format=wav

VadDuration

integer

割り込みをトリガーするために必要な音声アクティビティの最小持続時間 (ミリ秒単位) です。これは割り込み感度の制御に役立ちます。値 0 はこの特徴量を無効にします。有効値:200~2000。一般的な設定は 200~500 で、これは 1~4 単語に相当します。デフォルトでは、このパラメーターは設定されておらず、特徴量はアクティブではありません。

300

TtsConfig

object

テキスト読み上げ (TTS) の構成を指定します。

VoiceId

string

合成に使用する音声の ID です。変更は次の発話で有効になります。指定しない場合、エージェントはテンプレートのデフォルト音声を使用します。このパラメーターは、プリセットの TTS 音声にのみ適用されます。最大長:64 文字。利用可能な値については、「音声デモ」をご参照ください。

longcheng_v2

VoiceIdList

array

利用可能な音声のリストです。

string

音声 ID です。

zhixiaoxia

PronunciationRules

array

TTS の発音ルールのリストで、順次適用されます。最大 20 個のルールを指定できます。

object

TTS の発音ルールです。

Word

string

置き換える単語です。漢字で構成され、10 文字以下で、スペースを含まない必要があります。

一一零

Pronunciation

string

単語のターゲットとなる発音です。漢字で構成され、10 文字以下で、スペースを含まない必要があります。

幺幺零

Type

string

発音ルールのタイプです。 有効値:

  • replacementWord を指定された Pronunciation に置き換えます。

replacement

ModelId

string

モデル ID を指定します。現在、minimax モデルのみがサポートされています。有効値:speech-01-turbo および speech-02-turbo

speech-01-turbo

LanguageId

string

言語 ID を指定します。現在、minimax モデルのみがサポートされています。デフォルトでは、このパラメーターは空です。このパラメーターを設定すると、指定した言語または方言のパフォーマンスが向上します。言語が不明な場合は、値を "auto" に設定して自動検出を有効にします。サポートされている値は次のとおりです:

サポートされている言語

  • Chinese

  • Chinese,Yue:広東語

  • English

  • Arabic

  • Russian

  • Spanish

  • French

  • Portuguese

  • German

  • Turkish

  • Dutch

  • Ukrainian

  • Vietnamese

  • Indonesian

  • Japanese

  • Italian

  • Korean

  • Thai

  • Polish

  • Romanian

  • Greek

  • Czech

  • Finnish

  • Hindi

  • auto:自動言語検出を有効にします。

Chinese

Emotion

string

合成音声の感情を指定します。現在、minimax モデルのみがこの特徴量をサポートしています。有効値:

  • happy

  • sad

  • angry

  • fearful

  • disgusted

  • surprised

  • calm

happy

SpeechRate

number

話速です。すべてのプラットフォームでサポートされています。

1.0

LlmConfig

object

大規模言語モデル (LLM) の構成を指定します。

LlmHistory

array

LLM/MLLM の会話履歴コンテキストです。

object

会話における単一のターンです。

Role

string

会話における参加者のロールです。有効値:

  • user

  • assistant

  • system

  • function

  • plugin

  • tool

user

Content

string

指定されたロールのメッセージのテキストコンテンツです。

你好

LlmHistoryLimit

integer

LLM/MLLM 履歴に保持する会話ターンの最大数です。デフォルト:10。

10

LlmSystemPrompt

string

呼び出し開始時の LLM のシステムプロンプトです。

你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。

BailianAppParams

string

Alibaba Cloud Model Studio (Bailian) アプリケーションのパラメーターで、JSON 文字列としてフォーマットされます。パラメーターフォーマットの詳細については、 Alibaba Cloud Model Studio (Bailian) アプリケーションパラメーターをご参照ください。

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"

OpenAIExtraQuery

string

OpenAI 互換 LLM の追加のクエリパラメーターです。パラメーターは key=value フォーマットである必要があり、複数のパラメーターは & で区切られます。すべての値は文字列である必要があります。

api-version=2024-02-01&api-key=sk-xxx

LlmCompleteReply

boolean

有効にすると、AI エージェントは完全なレスポンスが生成された後、完全な LLM の結果をクライアントに送信します。この設定は字幕のストリーミングには影響しません。

true

FunctionMap

array

AI エージェントの機能を LLM 関数に関連付けるために使用される関数マッピングのリストです。これは現在、ユーザー定義の OpenAI 互換 LLM での関数呼び出しでのみサポートされています。

object

単一のマッピングルールです。

Function

string

AI エージェントシステムによって提供されるビルトイン関数の名前です。現在、hangup のみがサポートされています。

hangup

MatchFunction

string

エージェントのビルトイン関数に対応するユーザー定義の LLM 関数名です。カスタム LLM プロトコルの詳細については、「LLM 標準インターフェイス」をご参照ください。

hangup

OutputMinLength

integer

テキスト出力チャンクの最小文字長です。この値より短いテキストはバッファリングされます。有効値:0~100。値 0 または空の値 (デフォルト) はこの制限を無効にします。

5

OutputMaxDelay

integer

バッファリングされたテキストが強制的に送信されるまでの最大遅延時間 (ミリ秒単位) です。有効値:1000~10000。値 0 または空の値 (デフォルト) はこの制限を無効にします。

2000

HistorySyncWithTTS

boolean

LLM メッセージ履歴を TTS によって再生されたコンテンツと同期するかどうかを指定します。デフォルト:false。有効にすると、保存された履歴は、割り込みを含め、TTS によって再生された正確なコンテンツを反映します。

説明

ユーザーが AI エージェントに割り込むと、システムはアシスタントのメッセージ履歴の割り込みポイントに <ims_agent_interrupted> タグを挿入します。この更新されたメッセージは、次の LLM リクエストのコンテキストで使用されます。例:

[
  {"role": "user", "content": "物語を教えてください。"},
  {"role": "assistant", "content": "はい、三国志の物語をお話しできます。お聞きになり<ims_agent_interrupted>ますか?"},
  {"role": "user", "content": "別のものはどうですか?"}
]

false

AvatarConfig

object

アバターの構成です。これは、ワークフローにアバターノードが含まれている場合にのみ有効になります。

AvatarId

string

アバターのモデル ID です。

5257

InterruptConfig

object

音声割り込み戦略の構成を指定します。

EnableVoiceInterrupt

boolean

音声割り込みを許可するかどうかを指定します。デフォルト:true

true

InterruptWords

array

会話の割り込みをトリガーする特定の単語またはフレーズのリストです。

string

会話の割り込みをトリガーする特定の単語またはフレーズです。

打断一下

NoInterruptMode

string

割り込みが無効になっている場合の ASR 処理ポリシーです。

  • cache:ASR テキストをキャッシュします。システムは次のターンでキャッシュされたテキストを処理します。

  • discard:ASR テキストをすぐに破棄します。

デフォルトでは、ASR テキストはキャッシュされます。

cache

KeepInterruptWordsForLLM

boolean

LLM に送信されるテキストに割り込みキーワードを含めるかどうかを指定します。デフォルト:false

VoiceprintConfig

object

声紋認識の構成を指定します。

UseVoiceprint

boolean

声紋認識を有効にするかどうかを指定します。デフォルト:false。この特徴量を有効にする場合は、有効な声紋 ID を提供する必要があります。

false

VoiceprintId

string

声紋認識のための一意の ID です。デフォルトでは、これは設定されていません。提供された声紋 ID を登録する必要があります。詳細については、「声紋の登録」をご参照ください。

zhixiaoxia

RegistrationMode

string

TurnDetectionConfig

object

会話ターンの検出構成を指定します。

TurnEndWords

array

ユーザーのターンの終わりを示すキーワードのリストです。

string

ユーザーのターンの終わりを示すキーワードです。

我说完了

Mode

string

ターン検出のモードです。

  • Normal (デフォルト):AI を使用して意味的な完全性を判断しません。

  • Semantic:AI を使用して、意味的なコンテキストに基づいてユーザーが話し終えたかどうかを判断します。

Semantic

SemanticWaitDuration

integer

AI モードでのポーズ検出時間です。単位:ミリ秒。デフォルト:-1。

  • -1:AI が適切な待機時間を自動的に決定します。

  • 0-10000:カスタムの待機時間。0~1500 ms の値を推奨します。

説明

このパラメーターは Semantic モードでのみ有効です。

-1

Eagerness

string

ポーズを検出した後に AI がどれだけ迅速に応答するかを制御します。このパラメーターは Semantic モードでのみ有効です。

  • Low:忍耐強く待機します。AI は最大 6 秒間待機し、割り込みのリスクを低減します。

  • Medium:バランスの取れた待機。AI は最大 4 秒間待機します。ほとんどのシナリオに適しています。

  • High:迅速な応答。AI は最大 2 秒間待機します。これにより応答性が向上しますが、誤って会話が途切れるリスクも高まる可能性があります。

デフォルトでは、このパラメーターは設定されていません。

High

ExperimentalConfig

string

実験的な特徴量のためのパラメーターです。これを使用する必要がある場合は、サポートにお問い合わせください。

""

VcrConfig

object

ビデオコンテンツ認識の構成で、ビデオストリームで識別されたコンテンツに関するコールバックをクライアントに送信します。

StillFrameMotion

object

静止画検出の構成を指定します。

Enabled

boolean

静止画検出を有効にするかどうかを指定します。デフォルト:false

false

CallbackDelay

integer

静止画検出イベントがトリガーされるまでの遅延時間 (ミリ秒単位) です。システムは、フレームがこの期間静止した後にのみ通知を送信します。設定されていない場合は、コンソール構成の値が使用されます。有効値:200~5000。

3000

InvalidFrameMotion

object

無効フレーム検出のパラメーターを指定します。

Enabled

boolean

無効フレーム検出を有効にするかどうかを指定します。デフォルト:false

false

CallbackDelay

integer

無効フレーム検出イベントがトリガーされるまでの遅延時間 (ミリ秒単位) です。システムは、フレームがこの期間無効であった後にのみ通知を送信します。設定されていない場合は、コンソール構成の値が使用されます。有効値:200~5000。

3000

PeopleCount

object

人数カウント特徴量の構成です。

Enabled

boolean

特徴量を有効にするかどうかを指定します。デフォルト:false

false

Equipment

object

デバイス識別の構成です。

Enabled

boolean

禁止されているデバイスをチェックするかどうかを指定します。デフォルト:false

false

HeadMotion

object

頭部動作検出の構成です。

Enabled

boolean

頭部動作検出を有効にするかどうかを指定します。デフォルト:false

false

LookAway

object

視線逸脱検出の構成です。

Enabled

boolean

視線逸脱検出を有効にするかどうかを指定します。デフォルト:false

true

AmbientSoundConfig

object

環境音の構成を指定します。

ResourceId

string

環境音の ID です。この ID は、コンソールのエージェント設定の詳細設定セクションから取得できます。

f67901c595834************

Volume

integer

環境音のボリュームです。有効値:0~100。値 0 は音を無効にします。

50

AutoSpeechConfig

object

LLM の遅延中やユーザーが沈黙しているときにプロンプトを再生するなど、エージェントのプロアクティブな発話イベントを管理します。

UserIdle

object

ユーザーが長期間アイドル状態の場合のプロンプトです。

WaitTime

integer

プロンプトをトリガーするアイドル時間のしきい値 (ミリ秒単位) です。必須。有効値:5000~600000。

5000

MaxRepeats

integer

ユーザーにプロンプトを表示する最大回数です。この制限に達すると、呼び出しは終了します。必須。有効値:0~10。

5

Messages

array

最大 10 個のクエリプロンプトのコレクションです。各プロンプトは 100 文字以下である必要があります。すべての確率の合計は 100% である必要があります。

object

プロンプトとその確率です。

Text

string

プロンプトのテキストです。最大長:100 文字。

您还在吗?

Probability

number

このプロンプトが選択される確率です。有効値:0.0~1.0。

0.5

LlmPending

object

LLM の応答遅延中に再生されるプロンプトの構成です。

WaitTime

integer

LLM の応答時間のしきい値 (ミリ秒単位) です。応答時間がこの値を超えると、プロンプトが再生されます。必須。有効値:500~10000。ご利用の LLM の実際のパフォーマンスに基づいて設定してください。

3000

Messages

array

プロンプトのリストです。最大 10 個のプロンプトを指定でき、各プロンプトの最大長は 100 文字です。すべてのプロンプトの確率の合計は 1.0 である必要があります。

object

プロンプトとその確率です。

Text

string

プロンプトのテキストです。最大長:100 文字。

稍等一下

Probability

number

このプロンプトが選択される確率です。有効値:0.0~1.0。

0.5

BackChannelingConfigs

array

相槌の構成で、特定のトリガーで短い肯定的なフレーズを再生して、ユーザーの発話を認識します。

object

単一の相槌の構成です。

Enabled

boolean

この相槌ルールを有効にするかどうかを指定します。必須。

true

TriggerStage

string

相槌フレーズのトリガーです。有効値:

  • pause_detected:ユーザーの発話に短いポーズが検出されたときにトリガーします。

pause_detected

Probability

number

このルールがトリガーされる確率です。必須。有効値:0.0~1.0。

0.5

Words

array

相槌フレーズのリストです。最大 10 個のフレーズを指定でき、各フレーズの最大長は 20 文字です。すべてのフレーズの確率の合計は 1.0 である必要があります。

object

相槌フレーズとその確率です。

Text

string

フレーズのテキストです。必須。最大長:20 文字。多言語対応。

嗯嗯

Probability

number

このフレーズが選択される確率です。必須。有効値:0.0~1.0。

0.3

BackChannelingConfig

array

重要 このパラメーターは非推奨です。代わりに BackChannelingConfigs を使用してください。

object

単一の相槌の構成です。

Enabled

boolean

この相槌ルールを有効にするかどうかを指定します。必須。

true

TriggerStage

string

相槌応答のトリガータイミングです。有効値:

  • pause_detected (発話中の短いポーズが検出された場合)

pause_detected

Probability

number

特徴量がトリガーされる確率です。有効値は 0.0~1.0 です。このパラメーターは必須です。

0.5

Words

array

最大 10 個の相槌フレーズのコレクションです。各フレーズは 20 文字以下である必要があります。確率の合計は 1.0 である必要があります。

object

相槌フレーズの構成です。

Text

string

フレーズのテキストです。最大長は 20 文字です。多言語がサポートされています。このパラメーターは必須です。

嗯嗯

Probability

number

このフレーズがトリガーされる確率です。値は 0.0~1.0 の範囲である必要があります。このパラメーターは必須です。

0.3