Buat agen AI untuk panggilan audio video - IMS - Intelligent Media Services

Siapkan agen AI percakapan real-time dengan membuat alur kerja, mengaitkannya ke agen, dan menguji hasilnya.

Prasyarat

Sebelum memulai, pastikan Anda memenuhi persyaratan berikut:

Real-time Conversational AI telah diaktifkan. Untuk mengaktifkan fitur ini, buka halaman pembelian.

Langkah 1: Buat alur kerja audio/video

Masuk ke Konsol Intelligent Media Service (IMS) dan klik Create Workflow Template.

Pilih jenis alur kerja, seperti Audio Call, Avatar Call, Vision Call, atau Video Call, lalu konfigurasikan node alur kerja.

Speech-to-text

Mengonversi ucapan menjadi teks dengan dukungan multi-bahasa.

Opsi Model Version: Preset ASR (direkomendasikan untuk campuran Tionghoa-Inggris, akurasi lebih tinggi), NLS-ASR (latensi ultra-rendah), Qwen3-ASR-Realtime, dan Fun-ASR-Realtime. Silent Time default: 400 ms.

Preset: Dengan model preset, Anda dapat memilih model bahasa, mengatur waktu diam, dan mengonfigurasi hotword kustom.
- Model: Pilih model bahasa sesuai skenario Anda.
- Silent Time: Durasi agen menunggu pengguna berbicara.
- Custom Hotword: Meningkatkan akurasi pengenalan untuk kosakata spesifik domain. Hotword pengenalan ucapan.
- Sensitive Words: Kata yang dikonfigurasi akan secara otomatis disensor dengan tanda bintang (*) pada subtitle sisi klien. Kata sensitif kustom.
Third-party Plug-in: Saat ini, Anda dapat memilih iFLYTEK. Untuk mendapatkan parameter yang diperlukan, kunjungi iFLYTEK Real-time Speech Dictation.

LLM

LLM memproses output STT untuk memahami dan menghasilkan respons dalam bahasa alami.

Konfigurasikan System Persona (peran, tujuan, kemampuan, persyaratan respons, dan batasan; maksimal 3.072 karakter) serta Conversation Memory Rounds (0–30). Semakin banyak putaran, semakin banyak konteks yang dipertahankan tetapi mungkin meningkatkan waktu pemrosesan.

Penyedia LLM yang didukung: Qwen (preset sistem), Alibaba Cloud Model Studio, Tongyi Xingchen, dan model self-developed yang kompatibel dengan OpenAI.

Alibaba Cloud Model Studio

Platform untuk pengembangan model besar dan pembuatan aplikasi. Terhubung melalui pusat Model atau pusat Application.

Model center: Di Model Marketplace, pilih model dan salin kodenya sebagai ModelId.
Application Center: Buat aplikasi agen di Alibaba Cloud Model Studio, lalu peroleh AppId.
Buka halaman Key Management untuk membuat dan menyalin Kunci API.

Tongyi Xingchen

Tongyi Xingchen memungkinkan agen yang sangat personal dengan persona unik, dapat dikombinasikan dengan interaksi suara real-time berbasis avatar.

ModelId: Tongyi Xingchen menyediakan lima model: xingchen-lite, xingchen-base, xingchen-plus, xingchen-plus-v2, dan xingchen-max.
API key: Buka Konsol Tongyi Xingchen untuk membuat dan memperoleh Kunci API.

Self-developed model

Hubungkan model besar buatan Anda sendiri menggunakan spesifikasi OpenAI.

Masukkan parameter berikut:

Parameter	Description	Example
ModelId	Nama model. Dipetakan ke bidang `model` dalam spesifikasi OpenAI.	abc
API key	Kredensial autentikasi API. Dipetakan ke bidang `api_key` dalam spesifikasi OpenAI.	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
Model URL (HTTPS)	URL titik akhir layanan. Dipetakan ke bidang `base_url` dalam spesifikasi OpenAI.	http://www.abc.com

LLM Standard Interface.

Text-to-speech

Mengonversi teks yang telah diproses menjadi audio sehingga pengguna dapat mendengar respons agen.

Pada node TTS, pilih Version (Text-to-Speech 2.0 atau Text-to-Speech 1.0 (Legacy)), atur Timbre (misalnya, Yunfeng), sesuaikan Volume (0–100), dan pratinjau audio dengan memasukkan teks lalu mengklik Preview.

Anda dapat memilih model text-to-speech yang sesuai dengan skenario aplikasi Anda, termasuk Preset Template, Self-developed Template, dan Third-party Plug-in.
- System Preset Template: Termasuk System Default TTS, CosyVoice, dan Qwen3-TTS.
- Self-developed Template: Integrasikan model Anda sendiri melalui protokol standar. TTS Standard Interface.
- Third-party Plug-in: Hanya MiniMax Speech Model yang didukung. Gunakan versi terbaru. MiniMax Speech Model.
Node TTS juga dapat menyaring konten yang diterima dari LLM.

Pada Filter Settings, pilih jenis tanda kurung yang akan disaring: tanda kurung Tionghoa（）, tanda kurung Inggris (), kurung siku Tionghoa【】, kurung siku Inggris [], dan kurung kurawal Inggris {}.
Normalisasi Teks: Mengonversi angka, simbol, dan elemen lain dalam teks ke format standar untuk meningkatkan kualitas ucapan sintesis. Misalnya, "120" dikonversi menjadi "satu dua nol."

Virtual Avatars

Menghasilkan aliran video avatar, menyelaraskan gerakan, ekspresi, dan gerakan bibir dengan teks dan audio.

Konfigurasikan Node Name (dihasilkan otomatis). Jenis input: Text Stream dan Audio Stream. Jenis output: Video Stream.

Node avatar saat ini mendukung koneksi ke Avatar Plug-in atau Lingjing Digital Avatar Platform:

Avatar Plug-in:
- Faceunity: Anda harus menghubungi layanan pelanggan Faceunity untuk mengaktifkan layanan avatar 3D mereka dan memperoleh AppID, AppKey, dan AvatarId.
Lingjing Digital Avatar Platform: Untuk mengintegrasikan dengan Lingjing Digital Avatar Platform, Anda perlu mengajukan tiket untuk mengaktifkan layanan.

Video Frame Extraction

Mengekstraksi frame gambar dari aliran video.

Konfigurasikan Node Name (dihasilkan otomatis) dan Frame Extraction Frequency (1–30 frame/detik). Input: Video Stream. Output: Image (format Base64).

Video Content Recognition

Mendeteksi perilaku tertentu dalam konten video.

Pada konfigurasi Video Content Recognition Node, atur Node Name dan pilih opsi Recognition Content: Still Frame Detection, Invalid Frame Recognition, Person Count, Head Movement Recognition, Electronic Device Recognition, Gaze Deviation Recognition, dan Custom Model Detection. Untuk Custom Model Detection, masukkan Detection Task ID (maksimal 100 karakter: angka, huruf, tanda hubung, dan garis bawah; tanda hubung dan garis bawah tidak boleh berada di awal atau akhir).

Multi-modal LLM

MLLM memproses gambar dan teks dari node hulu untuk menghasilkan respons dalam bahasa alami. Pilih Multimodal Model atau Text-to-Text Model sebagai mode input.

Konfigurasikan System Persona (peran, tujuan, kemampuan, batasan; maksimal 3.072 karakter) dan Conversation Memory Rounds (1–30). Semakin banyak putaran, semakin banyak konteks yang dipertahankan tetapi mungkin meningkatkan waktu pemrosesan.

Alibaba Cloud Model Studio

Platform untuk pengembangan model besar dan pembuatan aplikasi. Terhubung melalui pusat Model atau pusat Application.

Model center: Di Model Marketplace, pilih model dan salin kodenya sebagai ModelId.
Application Center: Buat aplikasi agen di Alibaba Cloud Model Studio, lalu peroleh AppId.
Buka halaman Key Management untuk membuat dan menyalin Kunci API.

Tongyi Xingchen

Tongyi Xingchen memungkinkan agen yang sangat personal dengan persona unik, dapat dikombinasikan dengan interaksi suara real-time berbasis avatar.

ModelId: Tongyi Xingchen menyediakan lima model: xingchen-lite, xingchen-base, xingchen-plus, xingchen-plus-v2, dan xingchen-max.
API key: Buka Konsol Tongyi Xingchen untuk membuat dan memperoleh Kunci API.

Self-developed model

Hubungkan model besar buatan Anda sendiri menggunakan spesifikasi OpenAI.

Spesifikasi OpenAI: Masukkan parameter berikut:

Parameter	Type	Required	Description	Example
ModelId	String	Yes	Nama model. Parameter ini sesuai dengan bidang model dalam spesifikasi OpenAI.	abc
API-KEY	String	Yes	Informasi autentikasi. Parameter ini sesuai dengan bidang api_key dalam spesifikasi OpenAPI.	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
Model URL (HTTPS)	String	Yes	URL permintaan layanan. Parameter ini sesuai dengan bidang base_url dalam spesifikasi OpenAPI.	http://www.abc.com
Maximum Number of Images per Call	Integer	Yes	Beberapa model besar multi-modal membatasi jumlah frame gambar yang dapat diterima dalam satu permintaan. Anda dapat mengatur parameter ini untuk menyesuaikan dengan model yang berbeda. Selama permintaan, frame video akan secara otomatis diambil sampel sesuai nilai ini.	15

MLLM Standard Interface.

Klik Save untuk membuat alur kerja audio/video.

Langkah 2: Buat agen audio/video

Masuk ke Konsol Intelligent Media Service (IMS) dan klik Create AI Agent.
Konfigurasikan informasi dasar dan kaitkan alur kerja audio/video real-time.
1. Kaitkan alur kerja audio/video yang akan diikuti oleh agen.
  
  Atur Workflow Type (Audio Call, Avatar Call, Vision Call, Message-based Conversation, atau Video Call) dan pilih alur kerja dari dropdown Workflow ID.
2. Pilih aplikasi ApsaraVideo Real-time Communication (ARTC) yang sudah ada di akun Anda. Jika belum ada, sistem dapat membuatnya secara otomatis. Pengantar ApsaraVideo Real-time Communication.
  
  Catatan
  Real-time Conversational AI bergantung pada aplikasi ARTC sebagai jembatan komunikasi untuk percakapan.
3. Untuk alur kerja Audio Call, Anda dapat mengunggah gambar kustom yang ditampilkan selama panggilan.
  
  Aktifkan Custom Agent Image, atur Image Source ke Specify Image URI atau Upload Image, lalu berikan gambarnya. Format yang didukung: GIF, PNG, JPG (maksimal 3 MB).
Klik Submit untuk membuat agen audio/video.

Langkah 3: Uji agen

Setelah membuat agen, uji dengan memindai kode QR demo.

Hasilkan kode QR demo di Konsol.

Di panel navigasi sebelah kiri, klik AI Agents. Temukan agen target dan klik Demo QR Code di kolom Actions. Pilih waktu kedaluwarsa (1 jam, 7 jam, 24 jam, atau 3 hari) lalu klik Generate.
Pindai kode QR dengan DingTalk, WeChat, atau browser, atau salin URL demo ke browser Anda untuk menggunakan demo H5.

Pada dialog Demo QR Code, kode QR APP berada di sebelah kiri dan kode QR H5 di sebelah kanan. H5 Demo URL, Experience Token, dan Expiration Time ditampilkan di bagian bawah.

Integrasikan agen

Kumpulkan parameter berikut untuk mengintegrasikan agen ke dalam proyek Anda. Integrasikan agen audio/video.

Region ID: Wilayah alur kerja dan agen Anda. Temukan Region ID Anda di pemilih wilayah di pojok kiri atas Konsol.

Region name	Region ID
China (Hangzhou)	cn-hangzhou
China (Shanghai)	cn-shanghai
China (Beijing)	cn-beijing
China (Shenzhen)	cn-shenzhen
Singapore	ap-southeast-1

AppId dan AppKey dari aplikasi ARTC.

Di halaman AI Agents, klik Basic Information. Di Workflow Configuration, temukan RTC AppID di bidang ApsaraVideo Real-time Communication (ARTC) Application.

Di Konsol ApsaraVideo Live, buka Live+ > ApsaraVideo Real-time Communication > Application Management. Klik aplikasi target dan salin nilai dari Basic Information.
AccessKey ID dan AccessKey secret: Untuk memperolehnya, lihat Buat Pasangan Kunci Akses.