Apa itu AI Percakapan Real-time - Intelligent Media Services

AI Percakapan Real-time memungkinkan interaksi audio dan video yang efisien antara agen AI dan pengguna.

Pendahuluan

AI Percakapan Real-time adalah solusi yang memungkinkan perusahaan membangun aplikasi untuk interaksi manusia-AI. Anda dapat membuat agen yang menyerupai manusia di Konsol dalam waktu 10 menit. Agen tersebut berkomunikasi dengan pengguna akhir melalui Global Realtime Transport Network (GRTN), cocok untuk berbagai skenario seperti layanan pelanggan online, asisten AI, teman AI, asisten pencocokan, dan guru virtual.

Kemampuan

Agen AI adalah pengguna virtual yang berinteraksi dengan pengguna akhir. Tersedia berbagai jenis alur kerja untuk memenuhi skenario bisnis yang berbeda:

Panggilan Audio/Video

Audio call

Pengguna berinteraksi dengan asisten cerdas melalui suara.

555d2e763e3c49c23ac59cb7060d2a44

Avatar call

Pengguna dapat melakukan panggilan video dengan avatar, yang memberikan interaksi lebih realistis.

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

Vision call

Agen memberikan tanggapan berdasarkan input voice dan feed kamera.

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

Video call

Avatar berkomunikasi dengan pengguna akhir melalui panggilan video dua arah.

Ambil audio call sebagai contoh:

Anda hanya perlu mengonfigurasi tiga node berikut untuk membuat alur kerja panggilan suara.

Messaging

Pengguna berkomunikasi dengan agen melalui pesan suara atau pesan teks.

lQDPKHl9TD29I1XNC6zNBaCwklTx59f8apsHiTmbKaTPAA_1440_2988

Untuk interactive messaging, konfigurasikan node berikut:

Fitur Baru

Semantic endpointing

AI mengetahui momen tepat untuk merespons.

AI secara cerdas menentukan apakah pengguna telah selesai berbicara berdasarkan konteks percakapan, sehingga tidak mengganggu saat jeda alami. Didukung oleh teknologi semantic endpointing Alibaba Cloud, fitur ini mencapai interaksi alami dengan latensi rendah dan tingkat akurasi hingga 95%.

AI acoustics V2.5

Percakapan full-duplex di lingkungan bising.

AI acoustics V2.5 telah tersedia. Dibandingkan V2.0, versi ini mengurangi gangguan dari suara manusia jarak jauh, memungkinkan percakapan full-duplex yang lancar di berbagai skenario seperti kantor, kantin, pusat perbelanjaan, dan di jalanan.

Istilah

SessionId	SessionId ditentukan oleh developer. Kami menyarankan Anda mengaturnya sebagai pengenal unik catatan obrolan. Contoh penggunaan: Berdasarkan pengguna: Saat pengguna berobrol dengan agen AI di perangkat mobile atau PC, SessionId dapat menghubungkan percakapan yang terjadi pada waktu berbeda. Berdasarkan sesi: Saat pengguna memulai beberapa sesi, SessionId dapat digunakan untuk memisahkan sesi-sesi tersebut.
Messaging	Alur kerja di mana agen berinteraksi dengan pengguna melalui pesan suara atau pesan teks.
Audio call	Alur kerja di mana pengguna berinteraksi dengan agen melalui voice untuk mendapatkan umpan balik dan dukungan layanan secara cepat.
Avatar call	Alur kerja di mana pengguna berinteraksi dengan agen yang memiliki karakter virtual dengan gerakan tubuh dan ekspresi wajah yang kaya. Hal ini meningkatkan keaslian dan keterlibatan pengguna dalam percakapan.
Vision call	Alur kerja di mana agen berbasis MLLM memberikan tanggapan berdasarkan input suara pengguna dan feed kamera. Hal ini memungkinkan pengguna memperoleh pengalaman interaksi yang lebih intuitif, efisien, dan personal, melampaui batasan komunikasi suara atau teks tradisional.
Video call	Alur kerja yang menggabungkan keunggulan avatar dan vision calls untuk memungkinkan pengguna melakukan panggilan video dua arah dengan agen. Avatar dapat memahami feed kamera dan memberikan tanggapan, sehingga meningkatkan interaksi dan keaslian.
Interactive messages (IM)	Layanan bernilai tambah dari ApsaraVideo Live yang meningkatkan komunikasi pesan di ruang siaran langsung dan memperkaya pengalaman interaktif.
ApsaraVideo Real-time Communication (ARTC)	Layanan bernilai tambah dari ApsaraVideo Live yang menyediakan layanan streaming interaktif stabil, berkualitas tinggi, dan latensi rendah berdasarkan teknologi multimedia canggih serta lebih dari 3.200 points of presence di seluruh dunia. Teknologi Web Real-Time Communication (WebRTC) digunakan untuk komunikasi real-time antara manusia dan AI. Untuk informasi lebih lanjut, lihat Overview of ARTC.
Real-time workflow	Alur kerja terdiri atas rangkaian node, masing-masing didedikasikan untuk suatu task, seperti speech-to-text (STT), text-to-speech (TTS), LLM, dan database vektor yang dikelola sendiri. Anda dapat mengatur node secara fleksibel melalui metode plug-in dan drag-and-drop. Agen AI mengikuti alur kerja terstruktur ini untuk berinteraksi dengan pengguna akhir.
AI agent	Agen AI adalah pengguna virtual yang menyerupai manusia dan berinteraksi dengan pengguna akhir. Anda dapat membuat agen sendiri atau menggunakan agen default.

Manfaat

Ketersediaan tinggi dan latensi rendah di seluruh dunia
Mengandalkan Global Realtime Transport Network (GRTN) Alibaba Cloud, dengan cakupan lebih dari 3.200 POP di seluruh dunia dan optimasi Quality of Service (QoS), pengguna dapat berinteraksi dengan agen dari mana saja di dunia.
Akses dan debugging mudah
Anda dapat mengintegrasikan komponen AI, seperti layanan STT, LLM, layanan sintesis suara, dan database vektor buatan sendiri, ke dalam alur kerja sebagai plug-in untuk mengembangkan dan men-debug solusi bisnis Anda dengan cepat.
Sangat menyerupai manusia
Alibaba Cloud terus melakukan iterasi dan mengoptimalkan fitur seperti smart noise reduction, intelligent interruption, dan intelligent sentence segmentation agar agen AI berperilaku lebih mirip manusia.
Integrasi mudah
Alibaba Cloud menyediakan empat metode integrasi untuk memenuhi kebutuhan pembangunan aplikasi dalam berbagai skenario.

Cara Kerja

Diagram berikut menggambarkan cara kerja AI Percakapan Real-time:

Pengguna memulai permintaan panggilan audio atau video real-time ke agen AI yang di-host di cloud menggunakan client SDK.
Setelah agen menerima permintaan dari pengguna, alur kerja dimulai dan respons AI dihasilkan.
Agen mengirimkan aliran audio atau video yang berisi respons ke jaringan ARTC. Pengguna berlangganan aliran tersebut untuk diputar ulang. Percakapan antara pengguna dan agen pun terbentuk.

Fitur

Fitur	Deskripsi
Real-time workflow	Anda dapat menyusun alur kerja di Konsol. Alur kerja dapat berisi node berikut: Speech-to-text: Model Alibaba Cloud Qwen telah terintegrasi. Text-to-speech Model Alibaba Cloud Qwen telah terintegrasi. Modul sintesis suara buatan sendiri dapat diintegrasikan berdasarkan protokol standar. Anda dapat mengintegrasikan model MiniMax sebagai plug-in pihak ketiga. LLM Model Alibaba Cloud Qwen telah terintegrasi. Model AI dari Alibaba Cloud Model Studio dapat diintegrasikan. LLM buatan sendiri dapat diintegrasikan berdasarkan spesifikasi OpenAI. Avatar Anda dapat mengintegrasikan avatar dari Faceunity atau Alibaba Cloud Model Studio. Video frame extraction Ekstrak frame dari feed kamera untuk pemahaman model. Multi-modal LLM (MLLM) Model Alibaba Cloud Qwen telah terintegrasi. MLLM buatan sendiri dapat diintegrasikan berdasarkan spesifikasi OpenAI.
Custom agent profile	Unggah citra untuk agen AI. Citra tersebut akan ditampilkan selama panggilan suara.
Emotion recognition	Kenali emosi pengguna dan hasilkan respons yang empatik.
Welcome message	Konfigurasikan welcome message di Konsol IMS. Saat pengguna memulai percakapan, agen akan menyiarkan welcome message terlebih dahulu.
Proactive messages	Konfigurasikan server bisnis agar agen dapat secara proaktif mendorong konten audio dan video ke pengguna melalui OpenAPI.
Live subtitles	Konten percakapan dapat ditampilkan secara real-time di antarmuka pengguna.
Intelligent noise reduction	Secara otomatis menyaring kebisingan dari sisi pengguna selama percakapan. Jika beberapa pengguna berbicara secara bersamaan, suara dengan volume tertinggi akan diprioritaskan untuk dikumpulkan.
Intelligent interruption	Kenali niat pengguna untuk menginterupsi percakapan.
Intelligent sentence segmentation	Secara otomatis mengidentifikasi dan membagi kalimat panjang atau kompleks untuk meningkatkan keterbacaan teks dan pengalaman pengguna.
Audio sentence callback	Anda dapat mengonfigurasi callback ini di Konsol untuk menyimpan audio data di Object Storage Service (OSS).
Push-to-talk mode	Pengguna dapat mengatur mode panggilan ke push-to-talk mode di awal atau selama panggilan, lalu berinteraksi dengan agen dengan menekan tombol.
ASR hotwords	Anda dapat menentukan hotwords yang terkait dengan bisnis untuk meningkatkan akurasi pengenalan suara agen cerdas
Voiceprint-based noise suppression	Dalam skenario multi-pembicara, agen dapat mengidentifikasi karakteristik voiceprint pembicara utama untuk secara akurat menangkap ucapannya dan meminimalkan gangguan dari kebisingan latar belakang.
Human takeover	Ketika agen menghadapi situasi di luar kemampuannya atau memerlukan pengambilan keputusan kritis, agen manusia dapat mengambil alih percakapan dengan pengguna.
Graceful shutdown	Ketika server bisnis menghentikan agen, agen dapat menyelesaikan kalimat yang sedang diucapkan. Hal ini mencegah interupsi percakapan yang tiba-tiba.
Data archiving	Percakapan antara agen dan pengguna dikonversi menjadi teks untuk disimpan. Anda dapat memanggil operasi API untuk mengonsumsi data tersebut. Selain itu, Anda dapat menyimpan data audio dan video panggilan di OSS atau ApsaraVideo VOD.

Billing

AI Percakapan Real-time sedang dalam pratinjau publik dan tidak dikenakan biaya.

FAQ

Hubungi kami

Untuk informasi lebih lanjut dan dukungan teknis, bergabunglah dengan grup DingTalk (ID: 106730016696) untuk menghubungi kami.