全部产品
Search
文档中心

Intelligent Media Services:Panggilan audio dan video

更新时间:Jul 12, 2025

Topik ini menjelaskan cara mengintegrasikan agen AI untuk panggilan audio dan video menggunakan SDK AICallKit.

Ikhtisar

SDK AICallKit menyediakan solusi low-code untuk mengintegrasikan agen AI dengan kemampuan audio dan video real-time. Solusi ini memungkinkan perusahaan membangun fungsionalitas komunikasi dengan agen AI secara cepat di aplikasi mereka.

Manfaat

  • Integrasi dan Pengembangan Cepat: SDK AICallKit menawarkan antarmuka yang sudah dibuat sebelumnya, sehingga pengembang dapat mengimplementasikan AI Percakapan Real-time dengan kode minimal.

  • Dukungan Lintas Platform: Kompatibel dengan berbagai sistem operasi dan platform utama seperti iOS, Android, dan Web, SDK AICallKit memungkinkan pengembang menggunakan API terpadu untuk memastikan fungsionalitas dan pengalaman pengguna yang konsisten di semua platform.

  • Fitur Kaya: Selain fungsi panggilan dasar, SDK AICallKit menyediakan berbagai fitur seperti menampilkan status agen, subtitle real-time, dan interupsi cerdas. Fitur-fitur ini dapat dikonfigurasi sesuai kebutuhan jika Anda menggunakan solusi integrasi tanpa UI.

Solusi integrasi

Alibaba Cloud menawarkan dua solusi integrasi menggunakan SDK AICallKit:

  • Solusi Integrasi dengan UI: Solusi low-code ini mencakup komponen UI untuk aplikasi audio dan video. Anda dapat menjalankan demo dengan konfigurasi sederhana dan mengintegrasikan komponen UI ke dalam proyek Anda.

  • Solusi Integrasi tanpa UI: SDK AICallKit mengenkapsulasi kemampuan AI Percakapan Real-time untuk mengurangi beban kerja pengembangan terkait agen AI dan komunikasi real-time (RTC). Solusi ini ideal jika Anda ingin menyesuaikan antarmuka pengguna tanpa harus mengelola implementasi dasar.

Fitur SDK AICallKit

Fitur

Deskripsi

iOS & Android

Web

Panggilan suara

Pengguna dapat berbicara dengan agen AI dan mendapatkan umpan balik serta layanan instan.

✔️

✔️

Panggilan avatar

Pengguna dapat melakukan panggilan video dengan avatar, yang memberikan interaksi lebih realistis.

✔️

✔️

Panggilan visi

Dalam panggilan video dengan pengguna, agen memberikan umpan balik berdasarkan suara dan feed kamera.

✔️

✔️

Status agen

Anda dapat menampilkan status agen, termasuk mendengarkan, berpikir, dan berbicara.

✔️

✔️

Subtitle real-time

Dialog antara agen dan pengguna ditranskrip secara real-time dan ditampilkan di klien.

✔️

✔️

Interupsi manual

Anda dapat mengirim instruksi ke agen untuk menghentikannya dari berbicara.

✔️

✔️

Interupsi cerdas

Agen AI secara cerdas mendeteksi niat pengguna untuk menginterupsi percakapan.

✔️

✔️

Suara

Anda dapat mengonfigurasi suara agen. Untuk suara yang didukung, lihat Contoh suara cerdas.

✔️

✔️

Mode push-to-talk

Pengguna dapat mengatur mode panggilan ke mode push-to-talk di awal atau selama panggilan, dan menekan tombol untuk berbicara.

✔️

✔️

Pengenalan sidik suara

Dalam skenario multi-penutur, agen dapat mengidentifikasi karakteristik sidik suara penutur utama untuk secara akurat menangkap ucapan mereka dan meminimalkan gangguan dari kebisingan latar belakang.

✔️

Pesan kustom

Anda dapat mengirim pesan kustom melalui saluran pesan kustom RTC.

✔️

✔️

Manajemen perangkat lokal

Pengguna dapat mematikan speaker dan membisukan mikrofon selama panggilan.

✔️

✔️

Callbacks

Anda dapat memperoleh informasi seperti volume penutur utama dan status jaringan melalui callbacks.

✔️

✔️