AI Percakapan Real-time memungkinkan interaksi audio dan video yang efisien antara agen AI dan pengguna.
Pendahuluan
AI Percakapan Real-time adalah solusi yang memungkinkan perusahaan membangun aplikasi untuk interaksi manusia-AI. Anda dapat membuat agen yang menyerupai manusia di Konsol dalam waktu 10 menit. Agen tersebut berkomunikasi dengan pengguna akhir melalui Global Realtime Transport Network (GRTN), cocok untuk berbagai skenario seperti layanan pelanggan online, asisten AI, teman AI, asisten pencocokan, dan guru virtual.
Kemampuan
Agen AI adalah pengguna virtual yang berinteraksi dengan pengguna akhir. Tersedia berbagai jenis alur kerja untuk memenuhi skenario bisnis yang berbeda:
Panggilan Audio/Video
Audio call Pengguna berinteraksi dengan asisten cerdas melalui suara.
| Avatar call Pengguna dapat melakukan panggilan video dengan avatar, yang memberikan interaksi lebih realistis.
| Vision call Agen memberikan tanggapan berdasarkan input voice dan feed kamera.
| Video call Avatar berkomunikasi dengan pengguna akhir melalui panggilan video dua arah.
|
Ambil audio call sebagai contoh: Anda hanya perlu mengonfigurasi tiga node berikut untuk membuat alur kerja panggilan suara.
| |||
Messaging
Pengguna berkomunikasi dengan agen melalui pesan suara atau pesan teks.
|
|
Untuk interactive messaging, konfigurasikan node berikut:
| |
Fitur Baru
Semantic endpointingAI mengetahui momen tepat untuk merespons. AI secara cerdas menentukan apakah pengguna telah selesai berbicara berdasarkan konteks percakapan, sehingga tidak mengganggu saat jeda alami. Didukung oleh teknologi semantic endpointing Alibaba Cloud, fitur ini mencapai interaksi alami dengan latensi rendah dan tingkat akurasi hingga 95%. | AI acoustics V2.5Percakapan full-duplex di lingkungan bising. AI acoustics V2.5 telah tersedia. Dibandingkan V2.0, versi ini mengurangi gangguan dari suara manusia jarak jauh, memungkinkan percakapan full-duplex yang lancar di berbagai skenario seperti kantor, kantin, pusat perbelanjaan, dan di jalanan. |
Istilah
SessionId | SessionId ditentukan oleh developer. Kami menyarankan Anda mengaturnya sebagai pengenal unik catatan obrolan. Contoh penggunaan:
|
Messaging | Alur kerja di mana agen berinteraksi dengan pengguna melalui pesan suara atau pesan teks. |
Audio call | Alur kerja di mana pengguna berinteraksi dengan agen melalui voice untuk mendapatkan umpan balik dan dukungan layanan secara cepat. |
Avatar call | Alur kerja di mana pengguna berinteraksi dengan agen yang memiliki karakter virtual dengan gerakan tubuh dan ekspresi wajah yang kaya. Hal ini meningkatkan keaslian dan keterlibatan pengguna dalam percakapan. |
Vision call | Alur kerja di mana agen berbasis MLLM memberikan tanggapan berdasarkan input suara pengguna dan feed kamera. Hal ini memungkinkan pengguna memperoleh pengalaman interaksi yang lebih intuitif, efisien, dan personal, melampaui batasan komunikasi suara atau teks tradisional. |
Video call | Alur kerja yang menggabungkan keunggulan avatar dan vision calls untuk memungkinkan pengguna melakukan panggilan video dua arah dengan agen. Avatar dapat memahami feed kamera dan memberikan tanggapan, sehingga meningkatkan interaksi dan keaslian. |
Interactive messages (IM) | Layanan bernilai tambah dari ApsaraVideo Live yang meningkatkan komunikasi pesan di ruang siaran langsung dan memperkaya pengalaman interaktif. |
ApsaraVideo Real-time Communication (ARTC) | Layanan bernilai tambah dari ApsaraVideo Live yang menyediakan layanan streaming interaktif stabil, berkualitas tinggi, dan latensi rendah berdasarkan teknologi multimedia canggih serta lebih dari 3.200 points of presence di seluruh dunia. Teknologi Web Real-Time Communication (WebRTC) digunakan untuk komunikasi real-time antara manusia dan AI. Untuk informasi lebih lanjut, lihat Overview of ARTC. |
Real-time workflow | Alur kerja terdiri atas rangkaian node, masing-masing didedikasikan untuk suatu task, seperti speech-to-text (STT), text-to-speech (TTS), LLM, dan database vektor yang dikelola sendiri. Anda dapat mengatur node secara fleksibel melalui metode plug-in dan drag-and-drop. Agen AI mengikuti alur kerja terstruktur ini untuk berinteraksi dengan pengguna akhir. |
AI agent | Agen AI adalah pengguna virtual yang menyerupai manusia dan berinteraksi dengan pengguna akhir. Anda dapat membuat agen sendiri atau menggunakan agen default. |
Manfaat
Ketersediaan tinggi dan latensi rendah di seluruh dunia
Mengandalkan Global Realtime Transport Network (GRTN) Alibaba Cloud, dengan cakupan lebih dari 3.200 POP di seluruh dunia dan optimasi Quality of Service (QoS), pengguna dapat berinteraksi dengan agen dari mana saja di dunia.
Akses dan debugging mudah
Anda dapat mengintegrasikan komponen AI, seperti layanan STT, LLM, layanan sintesis suara, dan database vektor buatan sendiri, ke dalam alur kerja sebagai plug-in untuk mengembangkan dan men-debug solusi bisnis Anda dengan cepat.
Sangat menyerupai manusia
Alibaba Cloud terus melakukan iterasi dan mengoptimalkan fitur seperti smart noise reduction, intelligent interruption, dan intelligent sentence segmentation agar agen AI berperilaku lebih mirip manusia.
Integrasi mudah
Alibaba Cloud menyediakan empat metode integrasi untuk memenuhi kebutuhan pembangunan aplikasi dalam berbagai skenario.
Cara Kerja
Diagram berikut menggambarkan cara kerja AI Percakapan Real-time:

Pengguna memulai permintaan panggilan audio atau video real-time ke agen AI yang di-host di cloud menggunakan client SDK.
Setelah agen menerima permintaan dari pengguna, alur kerja dimulai dan respons AI dihasilkan.
Agen mengirimkan aliran audio atau video yang berisi respons ke jaringan ARTC. Pengguna berlangganan aliran tersebut untuk diputar ulang. Percakapan antara pengguna dan agen pun terbentuk.
Fitur
Fitur | Deskripsi |
Real-time workflow | Anda dapat menyusun alur kerja di Konsol. Alur kerja dapat berisi node berikut:
|
Custom agent profile | Unggah citra untuk agen AI. Citra tersebut akan ditampilkan selama panggilan suara. |
Emotion recognition | Kenali emosi pengguna dan hasilkan respons yang empatik. |
Welcome message | Konfigurasikan welcome message di Konsol IMS. Saat pengguna memulai percakapan, agen akan menyiarkan welcome message terlebih dahulu. |
Proactive messages | Konfigurasikan server bisnis agar agen dapat secara proaktif mendorong konten audio dan video ke pengguna melalui OpenAPI. |
Live subtitles | Konten percakapan dapat ditampilkan secara real-time di antarmuka pengguna. |
Intelligent noise reduction | Secara otomatis menyaring kebisingan dari sisi pengguna selama percakapan. Jika beberapa pengguna berbicara secara bersamaan, suara dengan volume tertinggi akan diprioritaskan untuk dikumpulkan. |
Intelligent interruption | Kenali niat pengguna untuk menginterupsi percakapan. |
Intelligent sentence segmentation | Secara otomatis mengidentifikasi dan membagi kalimat panjang atau kompleks untuk meningkatkan keterbacaan teks dan pengalaman pengguna. |
Audio sentence callback | Anda dapat mengonfigurasi callback ini di Konsol untuk menyimpan audio data di Object Storage Service (OSS). |
Push-to-talk mode | Pengguna dapat mengatur mode panggilan ke push-to-talk mode di awal atau selama panggilan, lalu berinteraksi dengan agen dengan menekan tombol. |
ASR hotwords | Anda dapat menentukan hotwords yang terkait dengan bisnis untuk meningkatkan akurasi pengenalan suara agen cerdas |
Voiceprint-based noise suppression | Dalam skenario multi-pembicara, agen dapat mengidentifikasi karakteristik voiceprint pembicara utama untuk secara akurat menangkap ucapannya dan meminimalkan gangguan dari kebisingan latar belakang. |
Human takeover | Ketika agen menghadapi situasi di luar kemampuannya atau memerlukan pengambilan keputusan kritis, agen manusia dapat mengambil alih percakapan dengan pengguna. |
Graceful shutdown | Ketika server bisnis menghentikan agen, agen dapat menyelesaikan kalimat yang sedang diucapkan. Hal ini mencegah interupsi percakapan yang tiba-tiba. |
Data archiving | Percakapan antara agen dan pengguna dikonversi menjadi teks untuk disimpan. Anda dapat memanggil operasi API untuk mengonsumsi data tersebut. Selain itu, Anda dapat menyimpan data audio dan video panggilan di OSS atau ApsaraVideo VOD. |
Billing
AI Percakapan Real-time sedang dalam pratinjau publik dan tidak dikenakan biaya.
FAQ
Bagaimana menangani error yang terjadi saat memulai panggilan?
Client melaporkan error "AgentNotFound" saat memulai percakapan messaging
Client melaporkan error "UnsupportedWorkflowType" saat memulai percakapan messaging
Hubungi kami
Untuk informasi lebih lanjut dan dukungan teknis, bergabunglah dengan grup DingTalk (ID: 106730016696) untuk menghubungi kami.







