All Products
Search
Document Center

Intelligent Media Services:AIAgentConfig

Last Updated:Mar 20, 2026

Parameter

Type

Description

Example

object

Menentukan konfigurasi untuk AI Agent.

Greeting

string

Sapaan yang disampaikan oleh AI Agent di awal sesi. Perubahan nilai ini akan berlaku pada sesi berikutnya. Secara default, tidak ada sapaan yang digunakan.

你好

WakeUpQuery

string

Kueri yang ditentukan pengguna yang langsung direspons oleh AI Agent saat sesi dimulai.

今天天气怎么样?

MaxIdleTime

integer

Waktu idle maksimum dalam detik. Jika sesi tetap idle selama periode ini, agen secara otomatis mengakhiri sesi. Default: 600.

600

UserOnlineTimeout

integer

Waktu dalam detik yang ditunggu agen hingga pengguna bergabung. Jika pengguna tidak bergabung dalam periode ini, agen menghentikan sesi. Default: 60.

60

UserOfflineTimeout

integer

Durasi timeout dalam detik sebelum AI Agent menghentikan sesi setelah pengguna meninggalkan sesi. Default: 5.

5

EnablePushToTalk

boolean

Menentukan apakah akan mengaktifkan mode push-to-talk. Default: false.

false

GracefulShutdown

boolean

Menentukan apakah akan mengaktifkan graceful shutdown. Default: false.

Jika diaktifkan, ketika sesi dihentikan, AI Agent menyelesaikan ucapan saat ini sebelum memutus koneksi. Agen berbicara maksimal selama 10 detik.

false

Volume

integer

Volume suara AI Agent.

  • Jika parameter ini tidak diatur, agen menggunakan mode volume adaptif secara default.

  • Jika parameter ini diatur, rentang nilai yang valid adalah 0 hingga 400. Volume output akhir dihitung sebagai: (Workflow Output Volume * Volume) / 100.

  1. Jika Volume bernilai 0, output akan dibisukan.

  2. Jika Volume bernilai 100, volume output tidak berubah.

  3. Jika Volume bernilai 200, volume output dilipatgandakan.

100

WorkflowOverrideParams

string

Menentukan parameter untuk mengganti konfigurasi alur kerja. Secara default, parameter ini tidak diatur.

{}

AvatarUrl

string

URL gambar profil AI Agent dalam panggilan hanya audio. Secara default, tidak ada gambar yang ditentukan.

http://example.com/a.jpg

AvatarUrlType

string

Jenis URL gambar profil. Secara default, parameter ini tidak diatur.

USER

EnableIntelligentSegment

boolean

Menentukan apakah akan mengaktifkan segmentasi kalimat cerdas. Jika diaktifkan, sistem secara cerdas menggabungkan ujaran pengguna pendek yang berurutan menjadi satu kalimat. Default: true.

true

AsrConfig

object

Menentukan konfigurasi Automatic Speech Recognition (ASR).

AsrLanguageId

string

ID bahasa untuk ASR. Nilai yang valid:

  • zh_mandarin: Bahasa Tiongkok

  • en: Bahasa Inggris

  • zh_en: Bahasa Tiongkok dan Inggris

  • es: Bahasa Spanyol

  • jp: Bahasa Jepang

zh_mandarin

AsrMaxSilence

integer

Ambang batas deteksi keheningan untuk segmentasi kalimat. Periode keheningan yang lebih lama dari durasi ini akan memicu pemisahan kalimat. Satuan: milidetik. Rentang valid: 200 hingga 1200. Default: 400.

400

AsrHotWords

array

Daftar hotword untuk meningkatkan akurasi ASR. Anda dapat menentukan hingga 128 hotword.

string

Sebuah hotword. String harus terdiri dari 1 hingga 10 karakter.

检查

VadLevel

integer

Mengontrol sensitivitas voice activity detection (VAD) untuk interupsi. Nilai yang lebih tinggi membuat agen lebih sulit diinterupsi. Rentang valid: 0 hingga 11. Default: 11.

  • 0: Menonaktifkan VAD.

  • 1-10: Menyesuaikan sensitivitas interupsi.

  • 11: Mode ditingkatkan dengan ketahanan noise yang lebih baik dan dampak minimal terhadap kualitas audio.

11

CustomParams

string

Menentukan parameter pass-through untuk integrasi ASR kustom.

mode=fast&sample=16000&format=wav

VadDuration

integer

Durasi minimum aktivitas suara, dalam milidetik, yang diperlukan untuk memicu interupsi. Ini membantu mengontrol sensitivitas interupsi. Nilai 0 menonaktifkan fitur ini. Rentang valid: 200 hingga 2000. Pengaturan umum berada di antara 200 dan 500, yang setara dengan 1 hingga 4 kata. Secara default, parameter ini tidak diatur dan fitur tidak aktif.

300

TtsConfig

object

Menentukan konfigurasi Text-to-Speech (TTS).

VoiceId

string

ID suara yang digunakan untuk sintesis. Perubahan berlaku pada ucapan berikutnya. Jika tidak ditentukan, agen menggunakan suara default dari templatnya. Parameter ini hanya berlaku untuk suara TTS preset. Panjang maksimum: 64 karakter. Untuk nilai yang tersedia, lihat Voice Demos.

longcheng_v2

VoiceIdList

array

Daftar suara yang tersedia.

string

ID suara.

zhixiaoxia

PronunciationRules

array

Daftar aturan pelafalan untuk TTS, diterapkan secara berurutan. Anda dapat menentukan hingga 20 aturan.

object

Aturan pelafalan TTS.

Word

string

Kata yang akan diganti. Harus terdiri dari karakter Tionghoa, maksimal 10 karakter, dan tidak boleh mengandung spasi.

一一零

Pronunciation

string

Pelafalan target untuk kata tersebut. Harus terdiri dari karakter Tionghoa, maksimal 10 karakter, dan tidak boleh mengandung spasi.

幺幺零

Type

string

Jenis aturan pelafalan. Nilai yang valid:

  • replacement: Mengganti Word dengan Pronunciation yang ditentukan.

replacement

ModelId

string

Menentukan ID model. Saat ini, hanya model minimax yang didukung. Nilai yang valid: speech-01-turbo dan speech-02-turbo.

speech-01-turbo

LanguageId

string

Menentukan ID bahasa. Saat ini, hanya model minimax yang didukung. Secara default, parameter ini kosong. Mengatur parameter ini meningkatkan performa untuk bahasa atau dialek tertentu. Jika Anda tidak yakin bahasanya, atur nilainya ke "auto" untuk mengaktifkan deteksi otomatis. Nilai yang didukung meliputi:

Bahasa yang didukung

  • Chinese

  • Chinese,Yue: Bahasa Kanton

  • English

  • Arabic

  • Russian

  • Spanish

  • French

  • Portuguese

  • German

  • Turkish

  • Dutch

  • Ukrainian

  • Vietnamese

  • Indonesian

  • Japanese

  • Italian

  • Korean

  • Thai

  • Polish

  • Romanian

  • Greek

  • Czech

  • Finnish

  • Hindi

  • auto: Mengaktifkan deteksi bahasa otomatis.

Chinese

Emotion

string

Menentukan emosi untuk ucapan hasil sintesis. Saat ini, hanya model minimax yang mendukung fitur ini. Nilai yang valid:

  • happy

  • sad

  • angry

  • fearful

  • disgusted

  • surprised

  • calm

happy

SpeechRate

number

Laju bicara. Didukung di semua platform.

1.0

LlmConfig

object

Menentukan konfigurasi Large Language Model (LLM).

LlmHistory

array

Konteks riwayat percakapan LLM/MLLM.

object

Satu giliran dalam percakapan.

Role

string

Peran peserta dalam percakapan. Nilai yang valid:

  • user

  • assistant

  • system

  • function

  • plugin

  • tool

user

Content

string

Konten teks pesan untuk peran yang ditentukan.

你好

LlmHistoryLimit

integer

Jumlah maksimum giliran percakapan yang disimpan dalam riwayat LLM/MLLM. Default: 10.

10

LlmSystemPrompt

string

Prompt sistem untuk LLM di awal panggilan.

你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。

BailianAppParams

string

Parameter untuk aplikasi Alibaba Cloud Model Studio (Bailian), diformat sebagai string JSON. Untuk detail format parameter, lihat Parameter aplikasi Alibaba Cloud Model Studio (Bailian).

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"

OpenAIExtraQuery

string

Parameter kueri tambahan untuk LLM yang kompatibel dengan OpenAI. Parameter harus dalam format key=value, dengan beberapa parameter dipisahkan oleh &. Semua nilai harus berupa string.

api-version=2024-02-01&api-key=sk-xxx

LlmCompleteReply

boolean

Jika diaktifkan, AI Agent mengirimkan hasil lengkap LLM ke client setelah respons penuh dihasilkan. Pengaturan ini tidak memengaruhi streaming subtitle.

true

FunctionMap

array

Daftar pemetaan fungsi yang digunakan untuk mengaitkan kemampuan AI Agent dengan fungsi LLM. Saat ini hanya didukung untuk pemanggilan fungsi dengan LLM kompatibel OpenAI yang ditentukan pengguna.

object

Satu aturan pemetaan.

Function

string

Nama fungsi bawaan yang disediakan oleh sistem AI Agent. Saat ini, hanya hangup yang didukung.

hangup

MatchFunction

string

Nama fungsi LLM yang ditentukan pengguna yang sesuai dengan fungsi bawaan agen. Untuk detail protokol LLM kustom, lihat Antarmuka standar LLM.

hangup

OutputMinLength

integer

Panjang minimum dalam karakter untuk potongan output teks. Teks yang lebih pendek dari nilai ini akan dibuffer. Rentang valid: 0 hingga 100. Nilai 0 atau nilai kosong (default) menonaktifkan batas ini.

5

OutputMaxDelay

integer

Penundaan maksimum dalam milidetik sebelum teks yang dibuffer dikirim secara paksa. Rentang valid: 1000 hingga 10000. Nilai 0 atau nilai kosong (default) menonaktifkan batas ini.

2000

HistorySyncWithTTS

boolean

Menentukan apakah riwayat pesan LLM harus disinkronkan dengan konten yang diputar oleh TTS. Default: false. Jika diaktifkan, riwayat yang disimpan mencerminkan konten persis yang diputar oleh TTS, termasuk interupsi.

Catatan

Ketika pengguna menginterupsi AI Agent, sistem menyisipkan tag <ims_agent_interrupted> pada titik interupsi dalam riwayat pesan asisten. Pesan yang diperbarui ini kemudian digunakan dalam konteks untuk permintaan LLM berikutnya. Contoh:

[
  {"role": "user", "content": "Tell me a story."},
  {"role": "assistant", "content": "Sure, I can tell you a story from Romance of the Three Kingdoms. Would you<ims_agent_interrupted> like to hear it?"},
  {"role": "user", "content": "How about another one?"}
]

false

AvatarConfig

object

Konfigurasi avatar. Ini hanya berlaku jika alur kerja mencakup node avatar.

AvatarId

string

ID model avatar.

5257

InterruptConfig

object

Menentukan konfigurasi strategi interupsi ucapan.

EnableVoiceInterrupt

boolean

Menentukan apakah akan mengizinkan interupsi suara. Default: true.

true

InterruptWords

array

Daftar kata atau frasa spesifik yang memicu interupsi percakapan.

string

Kata atau frasa spesifik yang memicu interupsi percakapan.

打断一下

NoInterruptMode

string

Kebijakan pemrosesan ASR ketika interupsi dinonaktifkan.

  • cache: Menyimpan cache teks ASR. Sistem memproses teks yang di-cache pada giliran berikutnya.

  • discard: Membuang teks ASR segera.

Secara default, teks ASR di-cache.

cache

KeepInterruptWordsForLLM

boolean

Menentukan apakah kata kunci interupsi akan disertakan dalam teks yang dikirim ke LLM. Default: false.

VoiceprintConfig

object

Menentukan konfigurasi pengenalan voiceprint.

UseVoiceprint

boolean

Menentukan apakah akan mengaktifkan pengenalan voiceprint. Default: false. Jika Anda mengaktifkan fitur ini, Anda harus menyediakan ID voiceprint yang valid.

false

VoiceprintId

string

ID unik untuk pengenalan voiceprint. Secara default, parameter ini tidak diatur. Anda harus mendaftarkan ID voiceprint yang disediakan. Untuk informasi lebih lanjut, lihat Daftarkan voiceprint.

zhixiaoxia

RegistrationMode

string

TurnDetectionConfig

object

Menentukan konfigurasi deteksi giliran percakapan.

TurnEndWords

array

Daftar kata kunci yang menunjukkan akhir giliran pengguna.

string

Kata kunci yang menunjukkan akhir giliran pengguna.

我说完了

Mode

string

Mode untuk deteksi giliran.

  • Normal (Default): Tidak menggunakan AI untuk menentukan kelengkapan semantik.

  • Semantic: Menggunakan AI untuk menentukan apakah pengguna telah selesai berbicara berdasarkan konteks semantik.

Semantic

SemanticWaitDuration

integer

Waktu deteksi jeda dalam mode AI. Satuan: milidetik. Default: -1.

  • -1: AI secara otomatis menentukan waktu tunggu yang sesuai.

  • 0-10000: Waktu tunggu kustom. Kami merekomendasikan nilai antara 0 dan 1500 ms.

Catatan

Parameter ini hanya berlaku dalam mode Semantic.

-1

Eagerness

string

Mengontrol seberapa cepat AI merespons setelah mendeteksi jeda. Parameter ini hanya berlaku dalam mode Semantic.

  • Low: Menunggu dengan sabar. AI menunggu hingga 6 detik, mengurangi risiko interupsi.

  • Medium: Menunggu seimbang. AI menunggu hingga 4 detik. Cocok untuk sebagian besar skenario.

  • High: Respons cepat. AI menunggu hingga 2 detik. Ini meningkatkan responsivitas tetapi juga dapat meningkatkan risiko pemotongan tidak sengaja.

Secara default, parameter ini tidak diatur.

High

ExperimentalConfig

string

Parameter untuk fitur eksperimental. Hubungi dukungan jika Anda perlu menggunakannya.

""

VcrConfig

object

Konfigurasi untuk pengenalan konten video, yang mengirimkan callback ke client tentang konten yang teridentifikasi dalam aliran video.

StillFrameMotion

object

Menentukan konfigurasi deteksi frame diam.

Enabled

boolean

Menentukan apakah akan mengaktifkan deteksi frame diam. Default: false.

false

CallbackDelay

integer

Penundaan dalam milidetik sebelum event deteksi frame diam dipicu. Sistem hanya mengirimkan notifikasi setelah frame diam selama durasi ini. Jika tidak diatur, nilai dari konfigurasi konsol yang digunakan. Rentang valid: 200 hingga 5000.

3000

InvalidFrameMotion

object

Menentukan parameter untuk deteksi frame tidak valid.

Enabled

boolean

Menentukan apakah akan mengaktifkan deteksi frame tidak valid. Default: false.

false

CallbackDelay

integer

Penundaan dalam milidetik sebelum event deteksi frame tidak valid dipicu. Sistem hanya mengirimkan notifikasi setelah frame tidak valid selama durasi ini. Jika tidak diatur, nilai dari konfigurasi konsol yang digunakan. Rentang valid: 200 hingga 5000.

3000

PeopleCount

object

Konfigurasi untuk fitur penghitungan jumlah orang.

Enabled

boolean

Menentukan apakah akan mengaktifkan fitur ini. Default: false.

false

Equipment

object

Konfigurasi untuk identifikasi perangkat.

Enabled

boolean

Menentukan apakah akan memeriksa perangkat terlarang. Default: false.

false

HeadMotion

object

Konfigurasi untuk deteksi gerakan kepala.

Enabled

boolean

Menentukan apakah akan mengaktifkan deteksi gerakan kepala. Default: false.

false

LookAway

object

Konfigurasi untuk deteksi penyimpangan pandangan.

Enabled

boolean

Menentukan apakah akan mengaktifkan deteksi penyimpangan pandangan. Default: false.

true

AmbientSoundConfig

object

Menentukan konfigurasi suara latar.

ResourceId

string

ID suara latar. Anda dapat memperoleh ID ini dari bagian konfigurasi lanjutan pengaturan agen di konsol.

f67901c595834************

Volume

integer

Volume suara latar. Rentang valid: 0 hingga 100. Nilai 0 menonaktifkan suara.

50

AutoSpeechConfig

object

Mengelola event ucapan proaktif agen, seperti memutar prompt selama penundaan LLM atau ketika pengguna diam.

UserIdle

object

Prompt untuk saat pengguna diam dalam periode yang lama.

WaitTime

integer

Ambang batas waktu idle dalam milidetik yang memicu prompt. Wajib diisi. Rentang valid: 5000 hingga 600000.

5000

MaxRepeats

integer

Jumlah maksimum kali untuk meminta pengguna. Setelah batas ini tercapai, panggilan dihentikan. Wajib diisi. Rentang valid: 0 hingga 10.

5

Messages

array

Kumpulan hingga 10 prompt kueri. Setiap prompt harus terdiri dari maksimal 100 karakter. Jumlah total probabilitas harus 100%.

object

Sebuah prompt dan probabilitasnya.

Text

string

Teks prompt. Panjang maksimum: 100 karakter.

您还在吗?

Probability

number

Probabilitas prompt ini dipilih. Rentang valid: 0,0 hingga 1,0.

0.5

LlmPending

object

Konfigurasi untuk prompt yang diputar selama penundaan respons LLM.

WaitTime

integer

Ambang batas waktu respons LLM dalam milidetik. Jika waktu respons melebihi nilai ini, prompt akan diputar. Wajib diisi. Rentang valid: 500 hingga 10000. Atur nilai ini berdasarkan performa aktual LLM Anda.

3000

Messages

array

Daftar prompt. Anda dapat menentukan hingga 10 prompt, masing-masing dengan panjang maksimum 100 karakter. Jumlah probabilitas untuk semua prompt harus 1,0.

object

Sebuah prompt dan probabilitasnya.

Text

string

Teks prompt. Panjang maksimum: 100 karakter.

稍等一下

Probability

number

Probabilitas prompt ini dipilih. Rentang valid: 0,0 hingga 1,0.

0.5

BackChannelingConfigs

array

Konfigurasi untuk backchanneling, yang memutar frasa pendek yang menegaskan pada pemicu tertentu untuk mengakui ucapan pengguna.

object

Satu konfigurasi backchanneling.

Enabled

boolean

Menentukan apakah akan mengaktifkan aturan backchanneling ini. Wajib diisi.

true

TriggerStage

string

Pemicu untuk frasa backchanneling. Nilai yang valid:

  • pause_detected: Dipicu ketika jeda singkat dalam ucapan pengguna terdeteksi.

pause_detected

Probability

number

Probabilitas aturan ini dipicu. Wajib diisi. Rentang valid: 0,0 hingga 1,0.

0.5

Words

array

Daftar frasa backchanneling. Anda dapat menentukan hingga 10 frasa, masing-masing dengan panjang maksimum 20 karakter. Jumlah probabilitas untuk semua frasa harus 1,0.

object

Frasa backchanneling dan probabilitasnya.

Text

string

Teks frasa. Wajib diisi. Panjang maksimum: 20 karakter. Mendukung multi-bahasa.

嗯嗯

Probability

number

Probabilitas frasa ini dipilih. Wajib diisi. Rentang valid: 0,0 hingga 1,0.

0.3

BackChannelingConfig

array

Penting Parameter ini sudah tidak digunakan lagi. Gunakan BackChannelingConfigs sebagai gantinya.

object

Satu konfigurasi backchanneling.

Enabled

boolean

Menentukan apakah akan mengaktifkan aturan backchanneling ini. Wajib diisi.

true

TriggerStage

string

Waktu pemicu respons backchanneling. Nilai yang valid:

  • pause_detected (Jeda singkat dalam ucapan terdeteksi)

pause_detected

Probability

number

Probabilitas fitur ini dipicu. Rentang valid: 0,0–1,0. Parameter ini wajib diisi.

0.5

Words

array

Kumpulan hingga 10 frasa backchanneling. Setiap frasa harus terdiri dari maksimal 20 karakter. Jumlah probabilitas harus 1,0.

object

Konfigurasi untuk frasa backchanneling.

Text

string

Teks frasa. Panjang maksimum: 20 karakter. Mendukung banyak bahasa. Parameter ini wajib diisi.

嗯嗯

Probability

number

Probabilitas frasa ini dipicu. Nilai harus antara 0,0 dan 1,0. Parameter ini wajib diisi.

0.3