|
Parameter |
Type |
Description |
Example |
|---|---|---|---|
|
object |
Menentukan konfigurasi untuk AI Agent. |
||
| Greeting |
string |
Sapaan yang disampaikan oleh AI Agent di awal sesi. Perubahan nilai ini akan berlaku pada sesi berikutnya. Secara default, tidak ada sapaan yang digunakan. |
你好 |
| WakeUpQuery |
string |
Kueri yang ditentukan pengguna yang langsung direspons oleh AI Agent saat sesi dimulai. |
今天天气怎么样? |
| MaxIdleTime |
integer |
Waktu idle maksimum dalam detik. Jika sesi tetap idle selama periode ini, agen secara otomatis mengakhiri sesi. Default: 600. |
600 |
| UserOnlineTimeout |
integer |
Waktu dalam detik yang ditunggu agen hingga pengguna bergabung. Jika pengguna tidak bergabung dalam periode ini, agen menghentikan sesi. Default: 60. |
60 |
| UserOfflineTimeout |
integer |
Durasi timeout dalam detik sebelum AI Agent menghentikan sesi setelah pengguna meninggalkan sesi. Default: 5. |
5 |
| EnablePushToTalk |
boolean |
Menentukan apakah akan mengaktifkan mode push-to-talk. Default: |
false |
| GracefulShutdown |
boolean |
Menentukan apakah akan mengaktifkan graceful shutdown. Default: Jika diaktifkan, ketika sesi dihentikan, AI Agent menyelesaikan ucapan saat ini sebelum memutus koneksi. Agen berbicara maksimal selama 10 detik. |
false |
| Volume |
integer |
Volume suara AI Agent.
|
100 |
| WorkflowOverrideParams |
string |
Menentukan parameter untuk mengganti konfigurasi alur kerja. Secara default, parameter ini tidak diatur. |
{} |
| AvatarUrl |
string |
URL gambar profil AI Agent dalam panggilan hanya audio. Secara default, tidak ada gambar yang ditentukan. |
http://example.com/a.jpg |
| AvatarUrlType |
string |
Jenis URL gambar profil. Secara default, parameter ini tidak diatur. |
USER |
| EnableIntelligentSegment |
boolean |
Menentukan apakah akan mengaktifkan segmentasi kalimat cerdas. Jika diaktifkan, sistem secara cerdas menggabungkan ujaran pengguna pendek yang berurutan menjadi satu kalimat. Default: |
true |
| AsrConfig |
object |
Menentukan konfigurasi Automatic Speech Recognition (ASR). |
|
| AsrLanguageId |
string |
ID bahasa untuk ASR. Nilai yang valid:
|
zh_mandarin |
| AsrMaxSilence |
integer |
Ambang batas deteksi keheningan untuk segmentasi kalimat. Periode keheningan yang lebih lama dari durasi ini akan memicu pemisahan kalimat. Satuan: milidetik. Rentang valid: 200 hingga 1200. Default: 400. |
400 |
| AsrHotWords |
array |
Daftar hotword untuk meningkatkan akurasi ASR. Anda dapat menentukan hingga 128 hotword. |
|
|
string |
Sebuah hotword. String harus terdiri dari 1 hingga 10 karakter. |
检查 |
|
| VadLevel |
integer |
Mengontrol sensitivitas voice activity detection (VAD) untuk interupsi. Nilai yang lebih tinggi membuat agen lebih sulit diinterupsi. Rentang valid: 0 hingga 11. Default: 11.
|
11 |
| CustomParams |
string |
Menentukan parameter pass-through untuk integrasi ASR kustom. |
mode=fast&sample=16000&format=wav |
| VadDuration |
integer |
Durasi minimum aktivitas suara, dalam milidetik, yang diperlukan untuk memicu interupsi. Ini membantu mengontrol sensitivitas interupsi. Nilai 0 menonaktifkan fitur ini. Rentang valid: 200 hingga 2000. Pengaturan umum berada di antara 200 dan 500, yang setara dengan 1 hingga 4 kata. Secara default, parameter ini tidak diatur dan fitur tidak aktif. |
300 |
| TtsConfig |
object |
Menentukan konfigurasi Text-to-Speech (TTS). |
|
| VoiceId |
string |
ID suara yang digunakan untuk sintesis. Perubahan berlaku pada ucapan berikutnya. Jika tidak ditentukan, agen menggunakan suara default dari templatnya. Parameter ini hanya berlaku untuk suara TTS preset. Panjang maksimum: 64 karakter. Untuk nilai yang tersedia, lihat Voice Demos. |
longcheng_v2 |
| VoiceIdList |
array |
Daftar suara yang tersedia. |
|
|
string |
ID suara. |
zhixiaoxia |
|
| PronunciationRules |
array |
Daftar aturan pelafalan untuk TTS, diterapkan secara berurutan. Anda dapat menentukan hingga 20 aturan. |
|
|
object |
Aturan pelafalan TTS. |
||
| Word |
string |
Kata yang akan diganti. Harus terdiri dari karakter Tionghoa, maksimal 10 karakter, dan tidak boleh mengandung spasi. |
一一零 |
| Pronunciation |
string |
Pelafalan target untuk kata tersebut. Harus terdiri dari karakter Tionghoa, maksimal 10 karakter, dan tidak boleh mengandung spasi. |
幺幺零 |
| Type |
string |
Jenis aturan pelafalan. Nilai yang valid:
|
replacement |
| ModelId |
string |
Menentukan ID model. Saat ini, hanya model minimax yang didukung. Nilai yang valid: |
speech-01-turbo |
| LanguageId |
string |
Menentukan ID bahasa. Saat ini, hanya model minimax yang didukung. Secara default, parameter ini kosong. Mengatur parameter ini meningkatkan performa untuk bahasa atau dialek tertentu. Jika Anda tidak yakin bahasanya, atur nilainya ke "auto" untuk mengaktifkan deteksi otomatis. Nilai yang didukung meliputi: |
Chinese |
| Emotion |
string |
Menentukan emosi untuk ucapan hasil sintesis. Saat ini, hanya model minimax yang mendukung fitur ini. Nilai yang valid:
|
happy |
| SpeechRate |
number |
Laju bicara. Didukung di semua platform. |
1.0 |
| LlmConfig |
object |
Menentukan konfigurasi Large Language Model (LLM). |
|
| LlmHistory |
array |
Konteks riwayat percakapan LLM/MLLM. |
|
|
object |
Satu giliran dalam percakapan. |
||
| Role |
string |
Peran peserta dalam percakapan. Nilai yang valid:
|
user |
| Content |
string |
Konten teks pesan untuk peran yang ditentukan. |
你好 |
| LlmHistoryLimit |
integer |
Jumlah maksimum giliran percakapan yang disimpan dalam riwayat LLM/MLLM. Default: 10. |
10 |
| LlmSystemPrompt |
string |
Prompt sistem untuk LLM di awal panggilan. |
你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。 |
| BailianAppParams |
string |
Parameter untuk aplikasi Alibaba Cloud Model Studio (Bailian), diformat sebagai string JSON. Untuk detail format parameter, lihat Parameter aplikasi Alibaba Cloud Model Studio (Bailian). |
"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}" |
| OpenAIExtraQuery |
string |
Parameter kueri tambahan untuk LLM yang kompatibel dengan OpenAI. Parameter harus dalam format |
api-version=2024-02-01&api-key=sk-xxx |
| LlmCompleteReply |
boolean |
Jika diaktifkan, AI Agent mengirimkan hasil lengkap LLM ke client setelah respons penuh dihasilkan. Pengaturan ini tidak memengaruhi streaming subtitle. |
true |
| FunctionMap |
array |
Daftar pemetaan fungsi yang digunakan untuk mengaitkan kemampuan AI Agent dengan fungsi LLM. Saat ini hanya didukung untuk pemanggilan fungsi dengan LLM kompatibel OpenAI yang ditentukan pengguna. |
|
|
object |
Satu aturan pemetaan. |
||
| Function |
string |
Nama fungsi bawaan yang disediakan oleh sistem AI Agent. Saat ini, hanya |
hangup |
| MatchFunction |
string |
Nama fungsi LLM yang ditentukan pengguna yang sesuai dengan fungsi bawaan agen. Untuk detail protokol LLM kustom, lihat Antarmuka standar LLM. |
hangup |
| OutputMinLength |
integer |
Panjang minimum dalam karakter untuk potongan output teks. Teks yang lebih pendek dari nilai ini akan dibuffer. Rentang valid: 0 hingga 100. Nilai 0 atau nilai kosong (default) menonaktifkan batas ini. |
5 |
| OutputMaxDelay |
integer |
Penundaan maksimum dalam milidetik sebelum teks yang dibuffer dikirim secara paksa. Rentang valid: 1000 hingga 10000. Nilai 0 atau nilai kosong (default) menonaktifkan batas ini. |
2000 |
| HistorySyncWithTTS |
boolean |
Menentukan apakah riwayat pesan LLM harus disinkronkan dengan konten yang diputar oleh TTS. Default: Catatan
Ketika pengguna menginterupsi AI Agent, sistem menyisipkan tag
|
false |
| AvatarConfig |
object |
Konfigurasi avatar. Ini hanya berlaku jika alur kerja mencakup node avatar. |
|
| AvatarId |
string |
ID model avatar. |
5257 |
| InterruptConfig |
object |
Menentukan konfigurasi strategi interupsi ucapan. |
|
| EnableVoiceInterrupt |
boolean |
Menentukan apakah akan mengizinkan interupsi suara. Default: |
true |
| InterruptWords |
array |
Daftar kata atau frasa spesifik yang memicu interupsi percakapan. |
|
|
string |
Kata atau frasa spesifik yang memicu interupsi percakapan. |
打断一下 |
|
| NoInterruptMode |
string |
Kebijakan pemrosesan ASR ketika interupsi dinonaktifkan.
Secara default, teks ASR di-cache. |
cache |
| KeepInterruptWordsForLLM |
boolean |
Menentukan apakah kata kunci interupsi akan disertakan dalam teks yang dikirim ke LLM. Default: |
|
| VoiceprintConfig |
object |
Menentukan konfigurasi pengenalan voiceprint. |
|
| UseVoiceprint |
boolean |
Menentukan apakah akan mengaktifkan pengenalan voiceprint. Default: |
false |
| VoiceprintId |
string |
ID unik untuk pengenalan voiceprint. Secara default, parameter ini tidak diatur. Anda harus mendaftarkan ID voiceprint yang disediakan. Untuk informasi lebih lanjut, lihat Daftarkan voiceprint. |
zhixiaoxia |
| RegistrationMode |
string |
||
| TurnDetectionConfig |
object |
Menentukan konfigurasi deteksi giliran percakapan. |
|
| TurnEndWords |
array |
Daftar kata kunci yang menunjukkan akhir giliran pengguna. |
|
|
string |
Kata kunci yang menunjukkan akhir giliran pengguna. |
我说完了 |
|
| Mode |
string |
Mode untuk deteksi giliran.
|
Semantic |
| SemanticWaitDuration |
integer |
Waktu deteksi jeda dalam mode AI. Satuan: milidetik. Default: -1.
Catatan
Parameter ini hanya berlaku dalam mode |
-1 |
| Eagerness |
string |
Mengontrol seberapa cepat AI merespons setelah mendeteksi jeda. Parameter ini hanya berlaku dalam mode
Secara default, parameter ini tidak diatur. |
High |
| ExperimentalConfig |
string |
Parameter untuk fitur eksperimental. Hubungi dukungan jika Anda perlu menggunakannya. |
"" |
| VcrConfig |
object |
Konfigurasi untuk pengenalan konten video, yang mengirimkan callback ke client tentang konten yang teridentifikasi dalam aliran video. |
|
| StillFrameMotion |
object |
Menentukan konfigurasi deteksi frame diam. |
|
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan deteksi frame diam. Default: |
false |
| CallbackDelay |
integer |
Penundaan dalam milidetik sebelum event deteksi frame diam dipicu. Sistem hanya mengirimkan notifikasi setelah frame diam selama durasi ini. Jika tidak diatur, nilai dari konfigurasi konsol yang digunakan. Rentang valid: 200 hingga 5000. |
3000 |
| InvalidFrameMotion |
object |
Menentukan parameter untuk deteksi frame tidak valid. |
|
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan deteksi frame tidak valid. Default: |
false |
| CallbackDelay |
integer |
Penundaan dalam milidetik sebelum event deteksi frame tidak valid dipicu. Sistem hanya mengirimkan notifikasi setelah frame tidak valid selama durasi ini. Jika tidak diatur, nilai dari konfigurasi konsol yang digunakan. Rentang valid: 200 hingga 5000. |
3000 |
| PeopleCount |
object |
Konfigurasi untuk fitur penghitungan jumlah orang. |
|
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan fitur ini. Default: |
false |
| Equipment |
object |
Konfigurasi untuk identifikasi perangkat. |
|
| Enabled |
boolean |
Menentukan apakah akan memeriksa perangkat terlarang. Default: |
false |
| HeadMotion |
object |
Konfigurasi untuk deteksi gerakan kepala. |
|
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan deteksi gerakan kepala. Default: |
false |
| LookAway |
object |
Konfigurasi untuk deteksi penyimpangan pandangan. |
|
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan deteksi penyimpangan pandangan. Default: |
true |
| AmbientSoundConfig |
object |
Menentukan konfigurasi suara latar. |
|
| ResourceId |
string |
ID suara latar. Anda dapat memperoleh ID ini dari bagian konfigurasi lanjutan pengaturan agen di konsol. |
f67901c595834************ |
| Volume |
integer |
Volume suara latar. Rentang valid: 0 hingga 100. Nilai 0 menonaktifkan suara. |
50 |
| AutoSpeechConfig |
object |
Mengelola event ucapan proaktif agen, seperti memutar prompt selama penundaan LLM atau ketika pengguna diam. |
|
| UserIdle |
object |
Prompt untuk saat pengguna diam dalam periode yang lama. |
|
| WaitTime |
integer |
Ambang batas waktu idle dalam milidetik yang memicu prompt. Wajib diisi. Rentang valid: 5000 hingga 600000. |
5000 |
| MaxRepeats |
integer |
Jumlah maksimum kali untuk meminta pengguna. Setelah batas ini tercapai, panggilan dihentikan. Wajib diisi. Rentang valid: 0 hingga 10. |
5 |
| Messages |
array |
Kumpulan hingga 10 prompt kueri. Setiap prompt harus terdiri dari maksimal 100 karakter. Jumlah total probabilitas harus 100%. |
|
|
object |
Sebuah prompt dan probabilitasnya. |
||
| Text |
string |
Teks prompt. Panjang maksimum: 100 karakter. |
您还在吗? |
| Probability |
number |
Probabilitas prompt ini dipilih. Rentang valid: 0,0 hingga 1,0. |
0.5 |
| LlmPending |
object |
Konfigurasi untuk prompt yang diputar selama penundaan respons LLM. |
|
| WaitTime |
integer |
Ambang batas waktu respons LLM dalam milidetik. Jika waktu respons melebihi nilai ini, prompt akan diputar. Wajib diisi. Rentang valid: 500 hingga 10000. Atur nilai ini berdasarkan performa aktual LLM Anda. |
3000 |
| Messages |
array |
Daftar prompt. Anda dapat menentukan hingga 10 prompt, masing-masing dengan panjang maksimum 100 karakter. Jumlah probabilitas untuk semua prompt harus 1,0. |
|
|
object |
Sebuah prompt dan probabilitasnya. |
||
| Text |
string |
Teks prompt. Panjang maksimum: 100 karakter. |
稍等一下 |
| Probability |
number |
Probabilitas prompt ini dipilih. Rentang valid: 0,0 hingga 1,0. |
0.5 |
| BackChannelingConfigs |
array |
Konfigurasi untuk backchanneling, yang memutar frasa pendek yang menegaskan pada pemicu tertentu untuk mengakui ucapan pengguna. |
|
|
object |
Satu konfigurasi backchanneling. |
||
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan aturan backchanneling ini. Wajib diisi. |
true |
| TriggerStage |
string |
Pemicu untuk frasa backchanneling. Nilai yang valid:
|
pause_detected |
| Probability |
number |
Probabilitas aturan ini dipicu. Wajib diisi. Rentang valid: 0,0 hingga 1,0. |
0.5 |
| Words |
array |
Daftar frasa backchanneling. Anda dapat menentukan hingga 10 frasa, masing-masing dengan panjang maksimum 20 karakter. Jumlah probabilitas untuk semua frasa harus 1,0. |
|
|
object |
Frasa backchanneling dan probabilitasnya. |
||
| Text |
string |
Teks frasa. Wajib diisi. Panjang maksimum: 20 karakter. Mendukung multi-bahasa. |
嗯嗯 |
| Probability |
number |
Probabilitas frasa ini dipilih. Wajib diisi. Rentang valid: 0,0 hingga 1,0. |
0.3 |
| BackChannelingConfig |
array |
Penting Parameter ini sudah tidak digunakan lagi. Gunakan BackChannelingConfigs sebagai gantinya. |
|
|
object |
Satu konfigurasi backchanneling. |
||
| Enabled |
boolean |
Menentukan apakah akan mengaktifkan aturan backchanneling ini. Wajib diisi. |
true |
| TriggerStage |
string |
Waktu pemicu respons backchanneling. Nilai yang valid:
|
pause_detected |
| Probability |
number |
Probabilitas fitur ini dipicu. Rentang valid: 0,0–1,0. Parameter ini wajib diisi. |
0.5 |
| Words |
array |
Kumpulan hingga 10 frasa backchanneling. Setiap frasa harus terdiri dari maksimal 20 karakter. Jumlah probabilitas harus 1,0. |
|
|
object |
Konfigurasi untuk frasa backchanneling. |
||
| Text |
string |
Teks frasa. Panjang maksimum: 20 karakter. Mendukung banyak bahasa. Parameter ini wajib diisi. |
嗯嗯 |
| Probability |
number |
Probabilitas frasa ini dipicu. Nilai harus antara 0,0 dan 1,0. Parameter ini wajib diisi. |
0.3 |