全部产品
Search
文档中心

Intelligent Media Services:Ikhtisar

更新时间:Dec 26, 2025

AI Percakapan Real-time memungkinkan interaksi audio dan video yang efisien antara agen AI dan pengguna.

Pendahuluan

AI Percakapan Real-time adalah solusi yang memungkinkan perusahaan membangun aplikasi untuk interaksi manusia-AI. Anda dapat membuat agen yang menyerupai manusia di Konsol dalam waktu 10 menit. Agen tersebut berkomunikasi dengan pengguna akhir melalui Global Realtime Transport Network (GRTN), cocok untuk berbagai skenario seperti layanan pelanggan online, asisten AI, teman AI, asisten pencocokan, dan guru virtual.

Kemampuan

Agen AI adalah pengguna virtual yang berinteraksi dengan pengguna akhir. Tersedia berbagai jenis alur kerja untuk memenuhi skenario bisnis yang berbeda:

Panggilan Audio/Video

Audio call

Pengguna berinteraksi dengan asisten cerdas melalui suara.

555d2e763e3c49c23ac59cb7060d2a44

Avatar call

Pengguna dapat melakukan panggilan video dengan avatar, yang memberikan interaksi lebih realistis.

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

Vision call

Agen memberikan tanggapan berdasarkan input voice dan feed kamera.

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

Video call

Avatar berkomunikasi dengan pengguna akhir melalui panggilan video dua arah.

image

Ambil audio call sebagai contoh:

Anda hanya perlu mengonfigurasi tiga node berikut untuk membuat alur kerja panggilan suara.

image

Messaging

Pengguna berkomunikasi dengan agen melalui pesan suara atau pesan teks.

lQDPKHl9TD29I1XNC6zNBaCwklTx59f8apsHiTmbKaTPAA_1440_2988

image

Untuk interactive messaging, konfigurasikan node berikut:

image

Fitur Baru

Semantic endpointing

AI mengetahui momen tepat untuk merespons.

AI secara cerdas menentukan apakah pengguna telah selesai berbicara berdasarkan konteks percakapan, sehingga tidak mengganggu saat jeda alami. Didukung oleh teknologi semantic endpointing Alibaba Cloud, fitur ini mencapai interaksi alami dengan latensi rendah dan tingkat akurasi hingga 95%.

AI acoustics V2.5

Percakapan full-duplex di lingkungan bising.

AI acoustics V2.5 telah tersedia. Dibandingkan V2.0, versi ini mengurangi gangguan dari suara manusia jarak jauh, memungkinkan percakapan full-duplex yang lancar di berbagai skenario seperti kantor, kantin, pusat perbelanjaan, dan di jalanan.

Istilah

SessionId

SessionId ditentukan oleh developer. Kami menyarankan Anda mengaturnya sebagai pengenal unik catatan obrolan. Contoh penggunaan:

  • Berdasarkan pengguna: Saat pengguna berobrol dengan agen AI di perangkat mobile atau PC, SessionId dapat menghubungkan percakapan yang terjadi pada waktu berbeda.

  • Berdasarkan sesi: Saat pengguna memulai beberapa sesi, SessionId dapat digunakan untuk memisahkan sesi-sesi tersebut.

Messaging

Alur kerja di mana agen berinteraksi dengan pengguna melalui pesan suara atau pesan teks.

Audio call

Alur kerja di mana pengguna berinteraksi dengan agen melalui voice untuk mendapatkan umpan balik dan dukungan layanan secara cepat.

Avatar call

Alur kerja di mana pengguna berinteraksi dengan agen yang memiliki karakter virtual dengan gerakan tubuh dan ekspresi wajah yang kaya. Hal ini meningkatkan keaslian dan keterlibatan pengguna dalam percakapan.

Vision call

Alur kerja di mana agen berbasis MLLM memberikan tanggapan berdasarkan input suara pengguna dan feed kamera. Hal ini memungkinkan pengguna memperoleh pengalaman interaksi yang lebih intuitif, efisien, dan personal, melampaui batasan komunikasi suara atau teks tradisional.

Video call

Alur kerja yang menggabungkan keunggulan avatar dan vision calls untuk memungkinkan pengguna melakukan panggilan video dua arah dengan agen. Avatar dapat memahami feed kamera dan memberikan tanggapan, sehingga meningkatkan interaksi dan keaslian.

Interactive messages (IM)

Layanan bernilai tambah dari ApsaraVideo Live yang meningkatkan komunikasi pesan di ruang siaran langsung dan memperkaya pengalaman interaktif.

ApsaraVideo Real-time Communication (ARTC)

Layanan bernilai tambah dari ApsaraVideo Live yang menyediakan layanan streaming interaktif stabil, berkualitas tinggi, dan latensi rendah berdasarkan teknologi multimedia canggih serta lebih dari 3.200 points of presence di seluruh dunia. Teknologi Web Real-Time Communication (WebRTC) digunakan untuk komunikasi real-time antara manusia dan AI.

Untuk informasi lebih lanjut, lihat Overview of ARTC.

Real-time workflow

Alur kerja terdiri atas rangkaian node, masing-masing didedikasikan untuk suatu task, seperti speech-to-text (STT), text-to-speech (TTS), LLM, dan database vektor yang dikelola sendiri. Anda dapat mengatur node secara fleksibel melalui metode plug-in dan drag-and-drop. Agen AI mengikuti alur kerja terstruktur ini untuk berinteraksi dengan pengguna akhir.

AI agent

Agen AI adalah pengguna virtual yang menyerupai manusia dan berinteraksi dengan pengguna akhir. Anda dapat membuat agen sendiri atau menggunakan agen default.

Manfaat

  • Ketersediaan tinggi dan latensi rendah di seluruh dunia

    Mengandalkan Global Realtime Transport Network (GRTN) Alibaba Cloud, dengan cakupan lebih dari 3.200 POP di seluruh dunia dan optimasi Quality of Service (QoS), pengguna dapat berinteraksi dengan agen dari mana saja di dunia.

  • Akses dan debugging mudah

    Anda dapat mengintegrasikan komponen AI, seperti layanan STT, LLM, layanan sintesis suara, dan database vektor buatan sendiri, ke dalam alur kerja sebagai plug-in untuk mengembangkan dan men-debug solusi bisnis Anda dengan cepat.

  • Sangat menyerupai manusia

    Alibaba Cloud terus melakukan iterasi dan mengoptimalkan fitur seperti smart noise reduction, intelligent interruption, dan intelligent sentence segmentation agar agen AI berperilaku lebih mirip manusia.

  • Integrasi mudah

    Alibaba Cloud menyediakan empat metode integrasi untuk memenuhi kebutuhan pembangunan aplikasi dalam berbagai skenario.

Cara Kerja

Diagram berikut menggambarkan cara kerja AI Percakapan Real-time:

image

  1. Pengguna memulai permintaan panggilan audio atau video real-time ke agen AI yang di-host di cloud menggunakan client SDK.

  2. Setelah agen menerima permintaan dari pengguna, alur kerja dimulai dan respons AI dihasilkan.

  3. Agen mengirimkan aliran audio atau video yang berisi respons ke jaringan ARTC. Pengguna berlangganan aliran tersebut untuk diputar ulang. Percakapan antara pengguna dan agen pun terbentuk.

Fitur

Fitur

Deskripsi

Real-time workflow

Anda dapat menyusun alur kerja di Konsol. Alur kerja dapat berisi node berikut:

  • Speech-to-text: Model Alibaba Cloud Qwen telah terintegrasi. 

  • Text-to-speech

    • Model Alibaba Cloud Qwen telah terintegrasi.

    • Modul sintesis suara buatan sendiri dapat diintegrasikan berdasarkan protokol standar.

    • Anda dapat mengintegrasikan model MiniMax sebagai plug-in pihak ketiga.

  • LLM

    • Model Alibaba Cloud Qwen telah terintegrasi.

    • Model AI dari Alibaba Cloud Model Studio dapat diintegrasikan.

    • LLM buatan sendiri dapat diintegrasikan berdasarkan spesifikasi OpenAI.

  • Avatar

    • Anda dapat mengintegrasikan avatar dari Faceunity atau Alibaba Cloud Model Studio.

  • Video frame extraction

    • Ekstrak frame dari feed kamera untuk pemahaman model.

  • Multi-modal LLM (MLLM)

    • Model Alibaba Cloud Qwen telah terintegrasi.

    • MLLM buatan sendiri dapat diintegrasikan berdasarkan spesifikasi OpenAI.

Custom agent profile

Unggah citra untuk agen AI. Citra tersebut akan ditampilkan selama panggilan suara. 

Emotion recognition

Kenali emosi pengguna dan hasilkan respons yang empatik.

Welcome message

Konfigurasikan welcome message di Konsol IMS. Saat pengguna memulai percakapan, agen akan menyiarkan welcome message terlebih dahulu. 

Proactive messages

Konfigurasikan server bisnis agar agen dapat secara proaktif mendorong konten audio dan video ke pengguna melalui OpenAPI. 

Live subtitles

Konten percakapan dapat ditampilkan secara real-time di antarmuka pengguna. 

Intelligent noise reduction

Secara otomatis menyaring kebisingan dari sisi pengguna selama percakapan. Jika beberapa pengguna berbicara secara bersamaan, suara dengan volume tertinggi akan diprioritaskan untuk dikumpulkan. 

Intelligent interruption

Kenali niat pengguna untuk menginterupsi percakapan. 

Intelligent sentence segmentation

Secara otomatis mengidentifikasi dan membagi kalimat panjang atau kompleks untuk meningkatkan keterbacaan teks dan pengalaman pengguna. 

Audio sentence callback

Anda dapat mengonfigurasi callback ini di Konsol untuk menyimpan audio data di Object Storage Service (OSS). 

Push-to-talk mode

Pengguna dapat mengatur mode panggilan ke push-to-talk mode di awal atau selama panggilan, lalu berinteraksi dengan agen dengan menekan tombol. 

ASR hotwords

Anda dapat menentukan hotwords yang terkait dengan bisnis untuk meningkatkan akurasi pengenalan suara agen cerdas 

Voiceprint-based noise suppression

Dalam skenario multi-pembicara, agen dapat mengidentifikasi karakteristik voiceprint pembicara utama untuk secara akurat menangkap ucapannya dan meminimalkan gangguan dari kebisingan latar belakang.

Human takeover

Ketika agen menghadapi situasi di luar kemampuannya atau memerlukan pengambilan keputusan kritis, agen manusia dapat mengambil alih percakapan dengan pengguna.

Graceful shutdown

Ketika server bisnis menghentikan agen, agen dapat menyelesaikan kalimat yang sedang diucapkan. Hal ini mencegah interupsi percakapan yang tiba-tiba. 

Data archiving

Percakapan antara agen dan pengguna dikonversi menjadi teks untuk disimpan. Anda dapat memanggil operasi API untuk mengonsumsi data tersebut. Selain itu, Anda dapat menyimpan data audio dan video panggilan di OSS atau ApsaraVideo VOD.

Billing

AI Percakapan Real-time sedang dalam pratinjau publik dan tidak dikenakan biaya.

FAQ

Hubungi kami

Untuk informasi lebih lanjut dan dukungan teknis, bergabunglah dengan grup DingTalk (ID: 106730016696) untuk menghubungi kami.