Ringkasan AICallKit SDK & AUI Kits untuk Conversational AI - Intelligent Media Services

Topik ini menjelaskan solusi AI Percakapan Real-time yang menyediakan komponen UI.

Ikhtisar

Solusi ini didasarkan pada SDK AICallKit dan menyediakan komponen UI untuk aplikasi audio dan video. Anda dapat menggunakan modul fungsional dari AUI Kits secara fleksibel sesuai kebutuhan bisnis Anda untuk mengintegrasikan AI real-time dan interaktif ke dalam aplikasi Anda dengan cepat. Solusi ini dirancang bagi perusahaan dan pengembang yang ingin membangun skenario AI Percakapan Real-time secara efisien. Modul fungsional dari AUI Kits secara signifikan mengurangi waktu dan biaya pengembangan, serta memastikan kualitas dan stabilitas aplikasi. Untuk informasi lebih lanjut tentang cara mengintegrasikan AUI Kits untuk AI Percakapan Real-time, lihat topik-topik berikut:

Untuk informasi lebih lanjut tentang pengembangan sisi server, lihat Integrasi Sisi Server dan Deskripsi API.

Fitur

Fitur	Deskripsi
Alur kerja real-time	Anda dapat mengatur alur kerja di konsol. Alur kerja mungkin berisi node berikut: Pengenalan suara ke teks Model Qwen Alibaba Cloud terintegrasi. Pembuatan ucapan dari teks Model Qwen Alibaba Cloud terintegrasi. Modul sintesis suara yang dikembangkan sendiri dapat diintegrasikan berdasarkan protokol standar. Anda dapat mengintegrasikan model MiniMax sebagai Plugin pihak ketiga. LLM Model Qwen Alibaba Cloud terintegrasi. Model AI dari Alibaba Cloud Model Studio dapat diintegrasikan. LLM yang dikembangkan sendiri dapat diintegrasikan berdasarkan standar OpenAI. Avatar Anda dapat mengintegrasikan avatar dari Faceunity atau Alibaba Cloud Model Studio. Ekstraksi frame video Ekstrak frame dari umpan kamera untuk pemahaman model. MLLM multi-modal Model Qwen Alibaba Cloud terintegrasi. MLLM yang dikembangkan sendiri dapat diintegrasikan berdasarkan standar OpenAI.
Profil agen kustom	Unggah gambar untuk agen AI. Gambar tersebut ditampilkan selama panggilan suara.
Pengenalan emosi	Mengenali emosi pengguna dan menghasilkan respons yang empatik.
Pesan selamat datang	Konfigurasikan pesan selamat datang di konsol IMS. Saat pengguna memulai percakapan, agen akan menyiarkan pesan selamat datang terlebih dahulu.
Pesan proaktif	Konfigurasikan server bisnis untuk memungkinkan agen secara proaktif mendorong konten audio dan video kepada pengguna menggunakan OpenAPI.
Subtitel langsung	Isi percakapan dapat ditampilkan secara real-time di antarmuka pengguna.
Peredam kebisingan cerdas	Secara otomatis menyaring kebisingan dari sisi pengguna selama percakapan. Jika beberapa pengguna berbicara pada saat yang sama, suara dengan volume tertinggi diprioritaskan untuk dikumpulkan.
Interupsi cerdas	Mengenali niat interupsi percakapan pengguna.
Pemisahan kalimat cerdas	Secara otomatis mengidentifikasi dan membagi kalimat panjang atau kompleks untuk meningkatkan keterbacaan teks dan pengalaman pengguna.
Callback kalimat audio	Anda dapat mengonfigurasi callback ini di konsol untuk menyimpan data audio di Object Storage Service (OSS).
Mode push-to-talk	Pengguna dapat mengatur mode panggilan ke mode push-to-talk di awal atau selama panggilan, dan berinteraksi dengan agen dengan menekan tombol.
Kata kunci ASR	Anda dapat mendefinisikan kata kunci terkait bisnis untuk meningkatkan akurasi pengenalan suara agen pintar
Penekanan kebisingan berbasis sidik suara	Dalam skenario multi-pembicara, agen dapat mengidentifikasi karakteristik sidik suara pembicara utama untuk secara akurat menangkap ucapan mereka dan meminimalkan gangguan dari kebisingan latar belakang.
Pengambilalihan manusia	Ketika agen menghadapi situasi di luar kemampuannya atau memerlukan pengambilan keputusan kritis, agen manusia dapat mengambil alih percakapan dengan pengguna.
Shutdown yang mulus	Ketika server bisnis menghentikan agen, agen dapat menyelesaikan kalimat saat ini. Ini mencegah pemutusan percakapan secara tiba-tiba.
Arsip data	Percakapan antara agen dan pengguna dikonversi menjadi teks untuk penyimpanan. Anda dapat memanggil operasi API untuk menggunakan data tersebut. Selain itu, Anda dapat menyimpan data audio dan video panggilan di OSS atau ApsaraVideo VOD.