すべてのプロダクト
Search
ドキュメントセンター

:AIAgentConfig

最終更新日:Feb 05, 2026

パラメーター

タイプ

説明

object

AI エージェントのテンプレート構成。

Greeting

string

エージェントが通話に参加した際に発話するウェルカムメッセージ。変更は次回セッションから有効になります。デフォルト値:なし。

你好

WakeUpQuery

string

通話開始前にエージェントに与えるコマンド。通話開始直後に、このクエリに対してエージェントが応答します。

今天天气怎么样?

MaxIdleTime

integer

エージェントがユーザーとのインタラクションを待機してから通話を終了するまでの最大時間。単位:秒。デフォルト値:600。

600

UserOnlineTimeout

integer

ユーザーがチャネルに参加しない場合に、エージェントがタスクを終了するまでのタイムアウト期間。単位:秒。デフォルト値:60。

60

UserOfflineTimeout

integer

ユーザーがチャネルから退出した後、エージェントがタスクを終了するまでのタイムアウト期間。単位:秒。デフォルト値:5。

5

EnablePushToTalk

boolean

プッシュ・トゥ・トークモードを有効化するかどうかを指定します。デフォルト値:false。

false

GracefulShutdown

boolean

グレースフルシャットダウンを有効化するかどうかを指定します。デフォルト値:false。

有効化すると、エージェントが停止される際に、現在の文の発話を完了した後に切断されます(最大 10 秒)。

false

Volume

integer

エージェントの発話音量。

  • このパラメーターを指定しない場合、デフォルトでアダプティブ音量モードが使用されます。

  • このパラメーターを指定する場合は、0 ~ 400 の値を入力してください。出力音量 = ワークフロー出力音量 × Volume / 100 となります。例:

  1. Volume を 0 に設定すると、出力はミュートされます。

  2. Volume を 100 に設定すると、出力音量は元の音量と等しくなります。

  3. Volume を 200 に設定すると、出力音量は元の音量の 2 倍になります。

100

WorkflowOverrideParams

string

ワークフロー構成をオーバーライドするためのパラメーター。デフォルト値:なし。

{}

AvatarUrl

string

音声のみの通話におけるエージェントのプロフィール画像の URL。デフォルト値:なし。

http://example.com/a.jpg

AvatarUrlType

string

プロフィール画像の URL の種別。デフォルト値:なし。

USER

EnableIntelligentSegment

boolean

有効化すると、システムが短い中間セグメントを単一の文として自動的にマージします。デフォルト値:true。

true

AsrConfig

object

音声認識 (ASR) の構成。

AsrLanguageId

string

ASR の言語 ID。有効な値:

  • zh_mandarin:中国語

  • en:英語

  • zh_en:中国語および英語

  • es:スペイン語

  • jp:日本語

zh_mandarin

AsrMaxSilence

integer

文区切りの無音しきい値。この値より長い無音期間は文の区切りと見なされます。単位:ミリ秒。デフォルト値:400。有効範囲:200 ~ 1200。

400

AsrHotWords

array

ASR の認識精度を向上させるためのホットワード。最大 128 個まで登録可能です。

string

ホットワード。長さ:1 ~ 10 文字。

检查

VadLevel

integer

割り込み検出用の音声区間検出 (VAD) しきい値。有効な値:0 ~ 11。デフォルト値:11。

  • 0:VAD 機能を無効化します。

  • 1 ~ 10:値が大きいほど割り込みが発生しにくくなります。

  • 11:ノイズ耐性が高く、音声歪みが最小限に抑えられた強化モードです。

11

CustomParams

string

ASR に渡す透過パラメーター。

mode=fast&sample=16000&format=wav

VadDuration

integer

0:この機能を無効化します。有効な値:200 ~ 2000。推奨値:200 ~ 500 ms(通常、1 ~ 4 単語分の長さに相当)。デフォルトではこのパラメーターは空欄であり、機能は無効化されます。

300

TtsConfig

object

テキスト読み上げ (TTS) の構成。

VoiceId

string

音声 ID。変更は次回の文から有効になります。未設定の場合、エージェントテンプレートで指定されたデフォルトの音声 ID が使用されます。このパラメーターは事前設定済みの TTS モデルにのみ適用されます。最大長:64 文字。利用可能なオプションについては、「音声合成のサンプル」をご参照ください。

longcheng_v2

VoiceIdList

array

利用可能な音声の一覧。

string

音声。

zhixiaoxia

PronunciationRules

array

発音ルール(順序通りに実行されます)。最大 20 個まで登録可能です。

object

発音ルール。

Word

string

置き換え対象の単語。値には最大 10 文字の中国語文字をサポートします。その他の文字(空白含む)はサポートされません。

一一零

Pronunciation

string

置き換え後の発音。値には最大 10 文字の中国語文字をサポートします。その他の文字(空白含む)はサポートされません。

幺幺零

Type

string

ルールの種別。有効な値:

  • replacement:Word の値のすべての発生箇所を Pronunciation の値で置き換えます。

replacement

ModelId

string

MiniMax モデルにのみ適用されます。有効な値:speech-01-turbo、speech-02-turbo。

speech-01-turbo

LanguageId

string

MiniMax モデルにのみ適用されます。デフォルトではこのパラメーターは空欄です。これにより、特定の言語や方言に対する音声認識精度が向上します。言語種別が不明な場合は、auto を指定することでモデルが自動検出を行います。

サポート言語

  • 中国語

  • 中国語,粵:広東語

  • 英語

  • アラビア語

  • ロシア語

  • スペイン語

  • フランス語

  • ポルトガル語

  • ドイツ語

  • トルコ語

  • オランダ語

  • ウクライナ語

  • ベトナム語

  • インドネシア語

  • 日本語

  • イタリア語

  • 韓国語

  • タイ語

  • ポーランド語

  • ルーマニア語

  • ギリシャ語

  • チェコ語

  • フィンランド語

  • ヒンディー語

  • auto

Chinese

Emotion

string

MiniMax モデルにのみ適用されます。7 種類の感情がサポートされています:

  • happy(喜び)

  • sad(悲しみ)

  • angry(怒り)

  • fearful(恐怖)

  • disgusted(嫌悪)

  • surprised(驚き)

  • calm(落ち着き)

happy

SpeechRate

number

すべてのプラットフォームでサポートされます。CosyVoice のデフォルト値は 1.0 です。有効な値:0.5 ~ 2.0。MiniMax のデフォルト値は 1.0 です。有効な値:0.5 ~ 2.0。

1.0

LlmConfig

object

大規模言語モデル (LLM) の構成。

LlmHistory

array

LLM/MLLM の会話履歴コンテキスト。

object

1 回のセッション。

Role

string

会話における参加者の役割。有効な値:

  • user(ユーザー)

  • assistant(アシスタント)

  • system(システム)

  • function(関数)

  • plugin(プラグイン)

  • tool(ツール)

user

Content

string

当該役割のメッセージの実際のテキスト内容。

你好

LlmHistoryLimit

integer

履歴に保持する会話ターンの最大数。デフォルト値:10。

10

LlmSystemPrompt

string

LLM のシステムプロンプト。

你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。

BailianAppParams

string

Alibaba Cloud Model Studio アプリケーションセンターのパラメーター(JSON 形式)。詳細については、「Alibaba Cloud Model Studio アプリケーションセンターのパラメーター」をご参照ください。

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"

OpenAIExtraQuery

string

OpenAI プロトコル準拠の LLM に送信する追加クエリパラメーター(key=value 形式のクエリ文字列、& 区切り)。すべての値は文字列である必要があります。

api-version=2024-02-01&api-key=sk-xxx

LlmCompleteReply

boolean

true の場合、生成処理完了後に、LLM からの完全な結果を 1 回の応答でクライアントに送信します。

true

FunctionMap

array

エージェント機能と LLM 関数のマッピング。OpenAI プロトコルに準拠したカスタム LLM での関数呼び出しのみをサポートします。

object

1 つのマッピングルール。

Function

string

組み込みエージェント機能の名前。hangup のみがサポートされています。

hangup

MatchFunction

string

LLM 内で定義されたユーザー定義関数の名前。LLM がこの関数を呼び出すと、対応するエージェント機能がトリガーされます。詳細については、「LLM 標準インターフェイス」をご参照ください。

hangup

OutputMinLength

integer

テキストチャンクを送信する前にバッファーに蓄積する必要がある最小文字数。有効な値:[0, 100]。値が 0 または空文字列(デフォルト)の場合、この制限は無効になります。

5

OutputMaxDelay

integer

テキストをクライアントに強制送信するまでの最大待機時間(ミリ秒)。有効な値:[1000, 10000]。値が 0 または空文字列(デフォルト)の場合、この制限は無効になります。

2000

HistorySyncWithTTS

boolean

保存された LLM メッセージ履歴が、TTS によって再生される内容と一致するかどうかを指定します。デフォルト値:false。

false

AvatarConfig

object

アバターの構成。ワークフローにアバターノードが含まれる場合にのみ有効です。

AvatarId

string

アバターのモデル ID。

5257

InterruptConfig

object

音声割り込み戦略の構成。

EnableVoiceInterrupt

boolean

ユーザーが話すことでエージェントを割り込ませることを許可するかどうかを指定します。デフォルト値:true。

true

InterruptWords

array

割り込みをトリガーする単語またはフレーズ。

string

割り込みをトリガーする単語またはフレーズ。

打断一下

NoInterruptMode

string

割り込み禁止モードにおける ASR 処理ポリシー。

  • cache:ASR テキストをキャッシュします。キャッシュされた ASR テキストは、現在のターン終了後に次のターンで処理されます。

  • discard:ASR テキストを破棄します。

デフォルト値:cache。

cache

VoiceprintConfig

object

ボイスプリント認識の構成。

UseVoiceprint

boolean

ボイスプリント認識を有効化するかどうかを指定します。デフォルト値:false。ボイスプリント認識を有効化する場合は、有効なボイスプリント ID を指定する必要があります。

false

VoiceprintId

string

ボイスプリントの固有 ID。デフォルトでは空欄です。指定するボイスプリント ID は事前に登録されている必要があります。詳細については、「ボイスプリントの登録」をご参照ください。

zhixiaoxia

RegistrationMode

string

TurnDetectionConfig

object

ユーザーの会話ターン終了を検出するための構成。

TurnEndWords

array

ユーザーのターン終了を示すキーワード。

string

ユーザーのターン終了を示すキーワード。

我说完了

Mode

string

ターン検出モード。

  • Normal(デフォルト):単純な無音検出を使用します。

  • Semantic:AI を使用してコンテキストを分析します。

Semantic

SemanticWaitDuration

integer

ユーザーの発話終了後、エージェントがターン終了と判断するまでの待機時間。単位:ミリ秒。デフォルト値:-1。

  • -1:AI が適切な待機時間を自動的に決定します。

  • 0 ~ 10000:カスタム待機時間。推奨値:0 ~ 1500 ms。

説明

Normal モードでは、このフィールドは無視されます。

-1

Eagerness

string

Semantic モードでのみ有効です。ユーザーの発話中の無音を検出した後に、AI が応答を開始する速さを制御します。

  • Low:より長い時間待機します(最大 6 秒)。これは最も安全なオプションであり、ユーザーを途中で遮るリスクを最小限に抑えます。

  • Medium:中程度の時間待機します(最大 4 秒)。これは、ほとんどの汎用シナリオで推奨される設定です。

  • High:短い無音の直後に即座に応答します(最大 2 秒)。これにより、ユーザーが話しおわる前に遮るリスクが高まります。

このフィールドはデフォルトで空欄です。

High

ExperimentalConfig

string

実験的機能のパラメーター。詳細については、サポートにお問い合わせください。

""

VcrConfig

object

動画コンテンツ認識の構成。有効化すると、システムは識別されたコンテンツの詳細を含むコールバックをクライアントに送信します。

StillFrameMotion

object

静止フレーム検出の構成。

Enabled

boolean

静止フレーム検出を有効化または無効化します。デフォルト値:false。

false

CallbackDelay

integer

静止フレーム検出イベントがトリガーされるまでの遅延時間(ミリ秒)。コールバックは、動画がこの期間静止した後にのみ送信されます。未設定の場合、コンソール構成の値が使用されます。有効な値:[200, 5000]。

3000

InvalidFrameMotion

object

無効フレーム検出の構成。

Enabled

boolean

無効フレーム検出を有効化または無効化します。

false

CallbackDelay

integer

無効フレーム検出イベントがトリガーされるまでの遅延時間(ミリ秒)。コールバックは、フレームがこの期間無効と判定された後にのみ送信されます。未設定の場合、コンソール構成の値が使用されます。有効な値:[200, 5000]。

3000

PeopleCount

object

人物カウント機能の構成。

Enabled

boolean

この機能を有効化または無効化します。デフォルト値:false。

false

Equipment

object

デバイス識別の構成。

Enabled

boolean

デバイス無効化チェックを有効化できます。デフォルトでは、この機能は無効化されています。

false

HeadMotion

object

頭部動き検出の構成。

Enabled

boolean

頭部動き検出を有効化または無効化します。デフォルト値:false。

false

LookAway

object

ユーザーが画面から目をそらしていることを検出するための構成。

Enabled

boolean

この機能を有効化または無効化します。デフォルト値:false。

true

AmbientSoundConfig

object

通話中に再生される環境音の構成。

ResourceId

string

環境音の ID。この ID は、コンソール内のエージェント構成の詳細設定セクションから取得できます。

f67901c595834************

Volume

integer

環境音の音量。有効な値:[0, 100]。値が 0 の場合、環境音は無効化されます。

50

AutoSpeechConfig

object

LLM の応答遅延時やユーザーの無音時に、エージェントが能動的に発話するイベントを管理します。

UserIdle

object

ユーザーが長時間無音であった場合に再生するプロンプトの構成。

WaitTime

integer

必須。プロンプトをトリガーするユーザーの無音期間(ミリ秒)。範囲:5000 ~ 600000。

5000

MaxRepeats

integer

必須。ユーザーへのプロンプト再生の最大回数。この上限に達すると、通話は終了します。範囲:0 ~ 10。

5

Messages

array

再生するプロンプトのコレクション。制約:最大 10 個、各プロンプトは 100 文字以内。確率の合計は 100% である必要があります。

object

プロンプトの構造。

Text

string

プロンプトのテキスト。最大長:100 文字。

您还在吗?

Probability

number

このプロンプトが選択される確率。範囲:0 ~ 1。

0.5

LlmPending

object

LLM の応答待ち時に再生するプロンプトの構成。

WaitTime

integer

必須。プロンプトを再生するまでの LLM 応答待ち時間(ミリ秒)。この値は、実際の LLM のレイテンシーに基づいて設定する必要があります。範囲:500 ~ 10000。

3000

Messages

array

プロンプトのコレクション。制約:最大 10 個。確率の合計は 100% である必要があります。

object

プロンプトの構造。

Text

string

プロンプトのテキスト。最大長:100 文字。

稍等一下

Probability

number

このプロンプトが選択される確率。範囲:0 ~ 1。

0.5

BackChannelingConfigs

array

object

Enabled

boolean

TriggerStage

string

Probability

number

Words

array

object

Text

string

Probability

number

BackChannelingConfig

array

有効化すると、システムは「うんうん」「わかりました」などの短い肯定的なフレーズを再生し、能動的な聞き取りを模倣します。

object

バックチャネリング構成

Enabled

boolean

必須。バックチャネリング機能を有効化または無効化します。有効な値:true、false。

true

TriggerStage

string

バックチャネリングフレーズをトリガーするイベント。有効な値:

  • pause_detected:ユーザーの発話中に短い無音が検出されたとき。

pause_detected

Probability

number

必須。イベント発生時にバックチャネリング機能をトリガーする確率。範囲:0 ~ 1。

0.5

Words

array

バックチャネリングフレーズのコレクション。制約:最大 10 個。確率の合計は 1.0 である必要があります。

object

フレーズの構成。

Text

string

必須。フレーズのテキスト。複数の言語をサポートします。最大長:20 文字。

嗯嗯

Probability

number

必須。この特定のフレーズが選択される確率。範囲:0 ~ 1。

0.3