Topik ini menjelaskan cara mengintegrasikan agen AI untuk panggilan audio dan video menggunakan SDK AICallKit.
Ikhtisar
SDK AICallKit menyediakan solusi low-code untuk mengintegrasikan agen AI dengan kemampuan audio dan video real-time. Solusi ini memungkinkan perusahaan membangun fungsionalitas komunikasi dengan agen AI secara cepat di aplikasi mereka.
Manfaat
Integrasi dan Pengembangan Cepat: SDK AICallKit menawarkan antarmuka yang sudah dibuat sebelumnya, sehingga pengembang dapat mengimplementasikan AI Percakapan Real-time dengan kode minimal.
Dukungan Lintas Platform: Kompatibel dengan berbagai sistem operasi dan platform utama seperti iOS, Android, dan Web, SDK AICallKit memungkinkan pengembang menggunakan API terpadu untuk memastikan fungsionalitas dan pengalaman pengguna yang konsisten di semua platform.
Fitur Kaya: Selain fungsi panggilan dasar, SDK AICallKit menyediakan berbagai fitur seperti menampilkan status agen, subtitle real-time, dan interupsi cerdas. Fitur-fitur ini dapat dikonfigurasi sesuai kebutuhan jika Anda menggunakan solusi integrasi tanpa UI.
Solusi integrasi
Alibaba Cloud menawarkan dua solusi integrasi menggunakan SDK AICallKit:
Solusi Integrasi dengan UI: Solusi low-code ini mencakup komponen UI untuk aplikasi audio dan video. Anda dapat menjalankan demo dengan konfigurasi sederhana dan mengintegrasikan komponen UI ke dalam proyek Anda.
Solusi Integrasi tanpa UI: SDK AICallKit mengenkapsulasi kemampuan AI Percakapan Real-time untuk mengurangi beban kerja pengembangan terkait agen AI dan komunikasi real-time (RTC). Solusi ini ideal jika Anda ingin menyesuaikan antarmuka pengguna tanpa harus mengelola implementasi dasar.
Fitur SDK AICallKit
Fitur | Deskripsi | iOS & Android | Web |
Panggilan suara | Pengguna dapat berbicara dengan agen AI dan mendapatkan umpan balik serta layanan instan. | ✔️ | ✔️ |
Panggilan avatar | Pengguna dapat melakukan panggilan video dengan avatar, yang memberikan interaksi lebih realistis. | ✔️ | ✔️ |
Panggilan visi | Dalam panggilan video dengan pengguna, agen memberikan umpan balik berdasarkan suara dan feed kamera. | ✔️ | ✔️ |
Status agen | Anda dapat menampilkan status agen, termasuk mendengarkan, berpikir, dan berbicara. | ✔️ | ✔️ |
Subtitle real-time | Dialog antara agen dan pengguna ditranskrip secara real-time dan ditampilkan di klien. | ✔️ | ✔️ |
Interupsi manual | Anda dapat mengirim instruksi ke agen untuk menghentikannya dari berbicara. | ✔️ | ✔️ |
Interupsi cerdas | Agen AI secara cerdas mendeteksi niat pengguna untuk menginterupsi percakapan. | ✔️ | ✔️ |
Suara | Anda dapat mengonfigurasi suara agen. Untuk suara yang didukung, lihat Contoh suara cerdas. | ✔️ | ✔️ |
Mode push-to-talk | Pengguna dapat mengatur mode panggilan ke mode push-to-talk di awal atau selama panggilan, dan menekan tombol untuk berbicara. | ✔️ | ✔️ |
Pengenalan sidik suara | Dalam skenario multi-penutur, agen dapat mengidentifikasi karakteristik sidik suara penutur utama untuk secara akurat menangkap ucapan mereka dan meminimalkan gangguan dari kebisingan latar belakang. | ✔️ | ❌ |
Pesan kustom | Anda dapat mengirim pesan kustom melalui saluran pesan kustom RTC. | ✔️ | ✔️ |
Manajemen perangkat lokal | Pengguna dapat mematikan speaker dan membisukan mikrofon selama panggilan. | ✔️ | ✔️ |
Callbacks | Anda dapat memperoleh informasi seperti volume penutur utama dan status jaringan melalui callbacks. | ✔️ | ✔️ |