全部产品
Search
文档中心

Intelligent Media Services:Solusi integrasi dengan UI

更新时间:Jul 02, 2025

Topik ini menjelaskan solusi AI Percakapan Real-time yang menyediakan komponen UI.

Ikhtisar

Solusi ini didasarkan pada SDK AICallKit dan menyediakan komponen UI untuk aplikasi audio dan video. Anda dapat menggunakan modul fungsional dari AUI Kits secara fleksibel sesuai kebutuhan bisnis Anda untuk mengintegrasikan AI real-time dan interaktif ke dalam aplikasi Anda dengan cepat. Solusi ini dirancang bagi perusahaan dan pengembang yang ingin membangun skenario AI Percakapan Real-time secara efisien. Modul fungsional dari AUI Kits secara signifikan mengurangi waktu dan biaya pengembangan, serta memastikan kualitas dan stabilitas aplikasi. Untuk informasi lebih lanjut tentang cara mengintegrasikan AUI Kits untuk AI Percakapan Real-time, lihat topik-topik berikut:

Untuk informasi lebih lanjut tentang pengembangan sisi server, lihat Integrasi Sisi Server dan Deskripsi API.

Fitur

Fitur

Deskripsi

Alur kerja real-time

Anda dapat mengatur alur kerja di konsol. Alur kerja mungkin berisi node berikut:

  • Pengenalan suara ke teks

    • Model Qwen Alibaba Cloud terintegrasi. 

  • Pembuatan ucapan dari teks

    • Model Qwen Alibaba Cloud terintegrasi.

    • Modul sintesis suara yang dikembangkan sendiri dapat diintegrasikan berdasarkan protokol standar.

    • Anda dapat mengintegrasikan model MiniMax sebagai Plugin pihak ketiga.

  • LLM

    • Model Qwen Alibaba Cloud terintegrasi.

    • Model AI dari Alibaba Cloud Model Studio dapat diintegrasikan.

    • LLM yang dikembangkan sendiri dapat diintegrasikan berdasarkan standar OpenAI.

  • Avatar

    • Anda dapat mengintegrasikan avatar dari Faceunity atau Alibaba Cloud Model Studio.

  • Ekstraksi frame video

    • Ekstrak frame dari umpan kamera untuk pemahaman model.

  • MLLM multi-modal

    • Model Qwen Alibaba Cloud terintegrasi.

    • MLLM yang dikembangkan sendiri dapat diintegrasikan berdasarkan standar OpenAI.

Profil agen kustom

Unggah gambar untuk agen AI. Gambar tersebut ditampilkan selama panggilan suara. 

Pengenalan emosi

Mengenali emosi pengguna dan menghasilkan respons yang empatik.

Pesan selamat datang

Konfigurasikan pesan selamat datang di konsol IMS. Saat pengguna memulai percakapan, agen akan menyiarkan pesan selamat datang terlebih dahulu. 

Pesan proaktif

Konfigurasikan server bisnis untuk memungkinkan agen secara proaktif mendorong konten audio dan video kepada pengguna menggunakan OpenAPI. 

Subtitel langsung

Isi percakapan dapat ditampilkan secara real-time di antarmuka pengguna. 

Peredam kebisingan cerdas

Secara otomatis menyaring kebisingan dari sisi pengguna selama percakapan. Jika beberapa pengguna berbicara pada saat yang sama, suara dengan volume tertinggi diprioritaskan untuk dikumpulkan. 

Interupsi cerdas

Mengenali niat interupsi percakapan pengguna. 

Pemisahan kalimat cerdas

Secara otomatis mengidentifikasi dan membagi kalimat panjang atau kompleks untuk meningkatkan keterbacaan teks dan pengalaman pengguna. 

Callback kalimat audio

Anda dapat mengonfigurasi callback ini di konsol untuk menyimpan data audio di Object Storage Service (OSS). 

Mode push-to-talk

Pengguna dapat mengatur mode panggilan ke mode push-to-talk di awal atau selama panggilan, dan berinteraksi dengan agen dengan menekan tombol. 

Kata kunci ASR

Anda dapat mendefinisikan kata kunci terkait bisnis untuk meningkatkan akurasi pengenalan suara agen pintar 

Penekanan kebisingan berbasis sidik suara

Dalam skenario multi-pembicara, agen dapat mengidentifikasi karakteristik sidik suara pembicara utama untuk secara akurat menangkap ucapan mereka dan meminimalkan gangguan dari kebisingan latar belakang.

Pengambilalihan manusia

Ketika agen menghadapi situasi di luar kemampuannya atau memerlukan pengambilan keputusan kritis, agen manusia dapat mengambil alih percakapan dengan pengguna.

Shutdown yang mulus

Ketika server bisnis menghentikan agen, agen dapat menyelesaikan kalimat saat ini. Ini mencegah pemutusan percakapan secara tiba-tiba. 

Arsip data

Percakapan antara agen dan pengguna dikonversi menjadi teks untuk penyimpanan. Anda dapat memanggil operasi API untuk menggunakan data tersebut. Selain itu, Anda dapat menyimpan data audio dan video panggilan di OSS atau ApsaraVideo VOD.