Topik ini menjelaskan solusi AI Percakapan Real-time yang menyediakan komponen UI.
Ikhtisar
Solusi ini didasarkan pada SDK AICallKit dan menyediakan komponen UI untuk aplikasi audio dan video. Anda dapat menggunakan modul fungsional dari AUI Kits secara fleksibel sesuai kebutuhan bisnis Anda untuk mengintegrasikan AI real-time dan interaktif ke dalam aplikasi Anda dengan cepat. Solusi ini dirancang bagi perusahaan dan pengembang yang ingin membangun skenario AI Percakapan Real-time secara efisien. Modul fungsional dari AUI Kits secara signifikan mengurangi waktu dan biaya pengembangan, serta memastikan kualitas dan stabilitas aplikasi. Untuk informasi lebih lanjut tentang cara mengintegrasikan AUI Kits untuk AI Percakapan Real-time, lihat topik-topik berikut:
Untuk informasi lebih lanjut tentang pengembangan sisi server, lihat Integrasi Sisi Server dan Deskripsi API.
Fitur
Fitur | Deskripsi |
Alur kerja real-time | Anda dapat mengatur alur kerja di konsol. Alur kerja mungkin berisi node berikut:
|
Profil agen kustom | Unggah gambar untuk agen AI. Gambar tersebut ditampilkan selama panggilan suara. |
Pengenalan emosi | Mengenali emosi pengguna dan menghasilkan respons yang empatik. |
Pesan selamat datang | Konfigurasikan pesan selamat datang di konsol IMS. Saat pengguna memulai percakapan, agen akan menyiarkan pesan selamat datang terlebih dahulu. |
Pesan proaktif | Konfigurasikan server bisnis untuk memungkinkan agen secara proaktif mendorong konten audio dan video kepada pengguna menggunakan OpenAPI. |
Subtitel langsung | Isi percakapan dapat ditampilkan secara real-time di antarmuka pengguna. |
Peredam kebisingan cerdas | Secara otomatis menyaring kebisingan dari sisi pengguna selama percakapan. Jika beberapa pengguna berbicara pada saat yang sama, suara dengan volume tertinggi diprioritaskan untuk dikumpulkan. |
Interupsi cerdas | Mengenali niat interupsi percakapan pengguna. |
Pemisahan kalimat cerdas | Secara otomatis mengidentifikasi dan membagi kalimat panjang atau kompleks untuk meningkatkan keterbacaan teks dan pengalaman pengguna. |
Callback kalimat audio | Anda dapat mengonfigurasi callback ini di konsol untuk menyimpan data audio di Object Storage Service (OSS). |
Mode push-to-talk | Pengguna dapat mengatur mode panggilan ke mode push-to-talk di awal atau selama panggilan, dan berinteraksi dengan agen dengan menekan tombol. |
Kata kunci ASR | Anda dapat mendefinisikan kata kunci terkait bisnis untuk meningkatkan akurasi pengenalan suara agen pintar |
Penekanan kebisingan berbasis sidik suara | Dalam skenario multi-pembicara, agen dapat mengidentifikasi karakteristik sidik suara pembicara utama untuk secara akurat menangkap ucapan mereka dan meminimalkan gangguan dari kebisingan latar belakang. |
Pengambilalihan manusia | Ketika agen menghadapi situasi di luar kemampuannya atau memerlukan pengambilan keputusan kritis, agen manusia dapat mengambil alih percakapan dengan pengguna. |
Shutdown yang mulus | Ketika server bisnis menghentikan agen, agen dapat menyelesaikan kalimat saat ini. Ini mencegah pemutusan percakapan secara tiba-tiba. |
Arsip data | Percakapan antara agen dan pengguna dikonversi menjadi teks untuk penyimpanan. Anda dapat memanggil operasi API untuk menggunakan data tersebut. Selain itu, Anda dapat menyimpan data audio dan video panggilan di OSS atau ApsaraVideo VOD. |