|
Parameter |
Type |
Description |
Example |
|---|---|---|---|
|
object |
Konfigurasi templat untuk AI agent. |
||
| Greeting |
string |
Pesan sambutan yang diucapkan agent saat bergabung. Perubahan berlaku pada sesi berikutnya. Nilai default: None. |
你好 |
| WakeUpQuery |
string |
Perintah yang diberikan kepada agent sebelum panggilan dimulai. Agent akan segera merespons kueri ini setelah panggilan dimulai. |
今天天气怎么样? |
| MaxIdleTime |
integer |
Waktu maksimum agent menunggu interaksi sebelum memutus panggilan. Satuan: detik. Nilai default: 600. |
600 |
| UserOnlineTimeout |
integer |
Periode timeout bagi agent untuk menghentikan tugas jika tidak ada pengguna yang bergabung ke saluran. Satuan: detik. Nilai default: 60. |
60 |
| UserOfflineTimeout |
integer |
Periode timeout bagi agent untuk menghentikan tugas setelah pengguna meninggalkan saluran. Satuan: detik. Nilai default: 5. |
5 |
| EnablePushToTalk |
boolean |
Menentukan apakah mode push-to-talk diaktifkan. Nilai default: false. |
false |
| GracefulShutdown |
boolean |
Menentukan apakah shutdown yang mulus diaktifkan. Nilai default: false. Jika diaktifkan, ketika agent dihentikan, agent akan menyelesaikan kalimatnya saat ini sebelum memutus koneksi (maksimal 10 detik). |
false |
| Volume |
integer |
Volume suara agent.
|
100 |
| WorkflowOverrideParams |
string |
Parameter untuk mengganti konfigurasi alur kerja. Nilai default: None. |
{} |
| AvatarUrl |
string |
URL gambar profil agent dalam panggilan hanya audio. Nilai default: None. |
http://example.com/a.jpg |
| AvatarUrlType |
string |
Tipe URL gambar profil. Nilai default: None. |
USER |
| EnableIntelligentSegment |
boolean |
Jika diaktifkan, sistem secara cerdas menggabungkan segmen-segmen pendek sementara menjadi satu kalimat utuh. Nilai default: true. |
true |
| AsrConfig |
object |
Konfigurasi untuk Automatic Speech Recognition (ASR). |
|
| AsrLanguageId |
string |
ID bahasa untuk ASR. Nilai yang valid:
|
zh_mandarin |
| AsrMaxSilence |
integer |
Ambang batas keheningan untuk segmentasi kalimat. Jeda yang lebih panjang dari nilai ini dianggap sebagai jeda antar kalimat. Satuan: milidetik. Nilai default: 400. Nilai yang valid: 200 hingga 1200. |
400 |
| AsrHotWords |
array |
Kata kunci untuk meningkatkan akurasi pengenalan ASR. Maksimal 128 hotword. |
|
|
string |
Hotword. Panjang: 1 hingga 10 karakter. |
检查 |
|
| VadLevel |
integer |
Ambang batas Deteksi aktivitas suara (VAD) untuk interupsi. Nilai yang valid: 0 hingga 11. Nilai default: 11.
|
11 |
| CustomParams |
string |
Parameter passthrough untuk ASR. |
mode=fast&sample=16000&format=wav |
| VadDuration |
integer |
0: Menonaktifkan fitur ini. Nilai yang valid: 200 hingga 2000. Rekomendasi: 200 hingga 500 ms, yang biasanya sesuai dengan panjang 1 hingga 4 kata. Secara default, parameter ini dikosongkan, yang berarti fitur ini dinonaktifkan. |
300 |
| TtsConfig |
object |
Konfigurasi untuk Text-to-Speech (TTS). |
|
| VoiceId |
string |
ID suara. Perubahan berlaku pada kalimat berikutnya. Jika tidak diatur, sistem menggunakan ID suara default yang ditentukan dalam templat agent. Parameter ini hanya berlaku untuk model TTS preset. Panjang maksimum: 64 karakter. Untuk opsi, lihat Contoh sintesis suara. |
longcheng_v2 |
| VoiceIdList |
array |
Suara yang tersedia. |
|
|
string |
Suara. |
zhixiaoxia |
|
| PronunciationRules |
array |
Aturan pelafalan, dieksekusi secara berurutan. Maksimal 20 aturan. |
|
|
object |
Aturan pelafalan. |
||
| Word |
string |
Kata yang akan diganti. Nilainya mendukung hingga 10 karakter Tionghoa. Karakter lain, termasuk spasi, tidak didukung. |
一一零 |
| Pronunciation |
string |
Pelafalan target. Nilainya mendukung hingga 10 karakter Tionghoa. Karakter lain, termasuk spasi, tidak didukung. |
幺幺零 |
| Type |
string |
Tipe aturan. Nilai yang valid:
|
replacement |
| ModelId |
string |
Hanya berlaku untuk model MiniMax. Nilai yang valid: speech-01-turbo dan speech-02-turbo. |
speech-01-turbo |
| LanguageId |
string |
Hanya berlaku untuk model MiniMax. Secara default, parameter ini dikosongkan. Ini meningkatkan akurasi pengenalan suara untuk bahasa dan dialek tertentu. Jika jenis bahasa tidak diketahui, atur ke auto agar model mendeteksinya secara otomatis. |
Chinese |
| Emotion |
string |
Hanya berlaku untuk model MiniMax. Tujuh jenis emosi didukung:
|
happy |
| SpeechRate |
number |
Didukung di semua platform. Untuk CosyVoice, nilai default adalah 1,0. Nilai yang valid: 0,5 hingga 2,0. Untuk MiniMax, nilai default adalah 1,0. Nilai yang valid: 0,5 hingga 2,0. |
1.0 |
| LlmConfig |
object |
Konfigurasi untuk model bahasa besar (LLM). |
|
| LlmHistory |
array |
Konteks riwayat percakapan LLM/MLLM. |
|
|
object |
Satu sesi. |
||
| Role |
string |
Peran peserta dalam percakapan. Nilai yang valid:
|
user |
| Content |
string |
Konten teks aktual dari pesan untuk peran tersebut. |
你好 |
| LlmHistoryLimit |
integer |
Jumlah maksimum giliran percakapan yang disimpan dalam riwayat. Nilai default: 10. |
10 |
| LlmSystemPrompt |
string |
Prompt sistem untuk LLM. |
你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。 |
| BailianAppParams |
string |
Parameter Pusat Aplikasi Alibaba Cloud Model Studio dalam format JSON. Untuk detailnya, lihat Parameter Pusat Aplikasi Alibaba Cloud Model Studio. |
"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}" |
| OpenAIExtraQuery |
string |
Parameter kueri tambahan yang dikirim ke LLM berbasis protokol OpenAI, diformat sebagai string kueri URL (pasangan key=value yang dipisahkan oleh &). Semua nilai harus berupa string. |
api-version=2024-02-01&api-key=sk-xxx |
| LlmCompleteReply |
boolean |
Jika true, layanan mengirimkan hasil lengkap dari LLM ke klien dalam satu respons setelah proses generasi selesai. |
true |
| FunctionMap |
array |
Memetakan kemampuan agent ke fungsi LLM. Hanya mendukung pemanggilan fungsi dengan LLM kustom yang mengikuti protokol OpenAI. |
|
|
object |
Satu aturan pemetaan. |
||
| Function |
string |
Nama kemampuan bawaan agent. Hanya hangup yang didukung. |
hangup |
| MatchFunction |
string |
Nama fungsi yang ditentukan pengguna dalam LLM Anda. Ketika LLM memanggil fungsi ini, kemampuan agent yang dipetakan akan dipicu. Untuk detailnya, lihat Antarmuka standar LLM. |
hangup |
| OutputMinLength |
integer |
Jumlah minimum karakter yang harus dibuffer sebelum chunk teks dikirim. Nilai yang valid: [0, 100]. Nilai 0 atau string kosong (default) menonaktifkan batas ini. |
5 |
| OutputMaxDelay |
integer |
Waktu maksimum (dalam milidetik) untuk mem-buffer teks sebelum dikirim paksa ke klien. Nilai yang valid: [1000, 10000]. Nilai 0 atau string kosong (default) menonaktifkan batas ini. |
2000 |
| HistorySyncWithTTS |
boolean |
Menentukan apakah riwayat pesan LLM yang disimpan konsisten dengan konten yang diputar oleh TTS. Nilai default: false. |
false |
| AvatarConfig |
object |
Konfigurasi avatar. Hanya berlaku jika alur kerja mencakup node avatar. |
|
| AvatarId |
string |
ID model avatar. |
5257 |
| InterruptConfig |
object |
Konfigurasi strategi interupsi ucapan. |
|
| EnableVoiceInterrupt |
boolean |
Menentukan apakah pengguna diizinkan menginterupsi agent dengan berbicara. Nilai default: true. |
true |
| InterruptWords |
array |
Kata atau frasa yang akan memicu interupsi. |
|
|
string |
Kata atau frasa yang akan memicu interupsi. |
打断一下 |
|
| NoInterruptMode |
string |
Kebijakan pemrosesan ASR dalam mode tanpa interupsi.
Nilai default: cache. |
cache |
| VoiceprintConfig |
object |
Konfigurasi untuk pengenalan voiceprint. |
|
| UseVoiceprint |
boolean |
Menentukan apakah pengenalan voiceprint diaktifkan. Nilai default: false. Anda harus menentukan ID voiceprint yang valid saat mengaktifkan pengenalan voiceprint. |
false |
| VoiceprintId |
string |
ID unik untuk voiceprint. Secara default dikosongkan. ID voiceprint yang diberikan harus terdaftar. Untuk informasi lebih lanjut, lihat Daftarkan voiceprint. |
zhixiaoxia |
| RegistrationMode |
string |
||
| TurnDetectionConfig |
object |
Konfigurasi untuk mendeteksi akhir giliran percakapan pengguna. |
|
| TurnEndWords |
array |
Kata kunci yang menandakan akhir giliran pengguna. |
|
|
string |
Kata kunci yang menandakan akhir giliran pengguna. |
我说完了 |
|
| Mode |
string |
Mode deteksi giliran.
|
Semantic |
| SemanticWaitDuration |
integer |
Menentukan berapa lama menunggu setelah pengguna berhenti berbicara sebelum agent memutuskan apakah gilirannya telah selesai. Satuan: milidetik. Nilai default: -1.
Catatan Dalam mode Normal, bidang ini diabaikan. |
-1 |
| Eagerness |
string |
Hanya berlaku dalam mode Semantic. Mengontrol seberapa cepat AI memulai responsnya setelah mendeteksi jeda dalam ucapan pengguna.
Bidang ini dikosongkan secara default. |
High |
| ExperimentalConfig |
string |
Parameter untuk fitur eksperimental. Hubungi dukungan untuk detailnya. |
"" |
| VcrConfig |
object |
Konfigurasi untuk pengenalan konten video. Saat diaktifkan, sistem mengirim callback ke klien dengan detail konten yang teridentifikasi. |
|
| StillFrameMotion |
object |
Konfigurasi untuk mendeteksi frame diam. |
|
| Enabled |
boolean |
Mengaktifkan atau menonaktifkan deteksi frame diam. Nilai default: false. |
false |
| CallbackDelay |
integer |
Penundaan dalam milidetik sebelum event deteksi frame diam dipicu. Callback dikirim hanya setelah video diam selama durasi ini. Jika tidak diatur, nilai dari konfigurasi konsol yang digunakan. Nilai yang valid: [200, 5000]. |
3000 |
| InvalidFrameMotion |
object |
Konfigurasi untuk mendeteksi frame tidak valid. |
|
| Enabled |
boolean |
Mengaktifkan atau menonaktifkan deteksi frame tidak valid. |
false |
| CallbackDelay |
integer |
Penundaan dalam milidetik sebelum event deteksi frame tidak valid dipicu. Callback dikirim hanya setelah frame dianggap tidak valid selama durasi ini. Jika tidak diatur, nilai dari konfigurasi konsol yang digunakan. Nilai yang valid: [200, 5000]. |
3000 |
| PeopleCount |
object |
Konfigurasi untuk fitur penghitungan jumlah orang. |
|
| Enabled |
boolean |
Mengaktifkan atau menonaktifkan fitur ini. Nilai default: false. |
false |
| Equipment |
object |
Konfigurasi untuk identifikasi perangkat. |
|
| Enabled |
boolean |
Anda dapat mengaktifkan pemeriksaan penonaktifan perangkat. Secara default, fitur ini dinonaktifkan. |
false |
| HeadMotion |
object |
Konfigurasi untuk deteksi gerakan kepala. |
|
| Enabled |
boolean |
Mengaktifkan atau menonaktifkan deteksi gerakan kepala. Nilai default: false. |
false |
| LookAway |
object |
Konfigurasi untuk mendeteksi apakah pengguna melihat menjauh dari layar. |
|
| Enabled |
boolean |
Mengaktifkan atau menonaktifkan fitur ini. Nilai default: false. |
true |
| AmbientSoundConfig |
object |
Konfigurasi untuk suara latar yang diputar selama panggilan. |
|
| ResourceId |
string |
ID suara latar. ID ini dapat diperoleh dari bagian pengaturan lanjutan konfigurasi agent di konsol. |
f67901c595834************ |
| Volume |
integer |
Volume suara latar. Nilai yang valid: [0, 100]. Nilai 0 menonaktifkan suara latar. |
50 |
| AutoSpeechConfig |
object |
Mengelola event ucapan proaktif agent, seperti memutar prompt selama penundaan LLM atau ketika pengguna diam. |
|
| UserIdle |
object |
Konfigurasi untuk prompt yang diputar saat pengguna diam dalam periode yang lama. |
|
| WaitTime |
integer |
Wajib diisi. Durasi diam pengguna (dalam milidetik) yang memicu prompt. Rentang: 5000 hingga 600000. |
5000 |
| MaxRepeats |
integer |
Wajib diisi. Jumlah maksimum kali untuk meminta pengguna. Setelah batas ini tercapai, panggilan akan dihentikan. Rentang: 0 hingga 10. |
5 |
| Messages |
array |
Kumpulan prompt yang akan diputar. Batasan: Maksimal 10 item, masing-masing tidak lebih dari 100 karakter. Jumlah probabilitas harus 100%. |
|
|
object |
Struktur prompt. |
||
| Text |
string |
Teks prompt. Panjang maksimum: 100 karakter. |
您还在吗? |
| Probability |
number |
Probabilitas prompt ini dipilih. Rentang: 0 hingga 1. |
0.5 |
| LlmPending |
object |
Konfigurasi untuk prompt yang diputar saat menunggu respons dari LLM. |
|
| WaitTime |
integer |
Wajib diisi. Durasi menunggu respons LLM (dalam milidetik) sebelum memutar prompt. Nilai ini harus dikonfigurasi berdasarkan latensi aktual LLM Anda. Rentang: 500 hingga 10000. |
3000 |
| Messages |
array |
Kumpulan prompt. Batasan: Maksimal 10 item. Jumlah probabilitas harus 100%. |
|
|
object |
Struktur prompt. |
||
| Text |
string |
Teks prompt. Panjang maksimum: 100 karakter. |
稍等一下 |
| Probability |
number |
Probabilitas prompt ini dipilih. Rentang: 0 hingga 1. |
0.5 |
| BackChannelingConfigs |
array |
||
|
object |
|||
| Enabled |
boolean |
||
| TriggerStage |
string |
||
| Probability |
number |
||
| Words |
array |
||
|
object |
|||
| Text |
string |
||
| Probability |
number |
||
| BackChannelingConfig |
array |
Saat diaktifkan, sistem memutar frasa pendek yang menegaskan (misalnya, "uh-huh," "I see") untuk mensimulasikan pendengaran aktif. |
|
|
object |
Konfigurasi backchanneling |
||
| Enabled |
boolean |
Wajib diisi. Mengaktifkan atau menonaktifkan fitur backchanneling. Nilai yang valid: true, false. |
true |
| TriggerStage |
string |
Event yang memicu frasa backchanneling. Nilai yang valid:
|
pause_detected |
| Probability |
number |
Wajib diisi. Probabilitas memicu fitur backchanneling saat event terjadi. Rentang: 0 hingga 1. |
0.5 |
| Words |
array |
Kumpulan frasa backchanneling. Batasan: Maksimal 10 item. Jumlah probabilitas harus 1,0. |
|
|
object |
Konfigurasi frasa. |
||
| Text |
string |
Wajib diisi. Teks frasa. Mendukung banyak bahasa. Panjang maksimum: 20 karakter. |
嗯嗯 |
| Probability |
number |
Wajib diisi. Probabilitas frasa spesifik ini dipilih. Rentang: 0 hingga 1. |
0.3 |