全部产品
Search
文档中心

Intelligent Media Services:Panduan cepat untuk panggilan audio/video

更新时间:Dec 16, 2025

Panduan ini menjelaskan cara membuat agent untuk panggilan audio/video.

Aktifkan layanan

Sebelum memulai, pastikan Anda memenuhi persyaratan berikut:

  • Real-time Conversational AI telah diaktifkan. Untuk mengaktifkan fitur ini, kunjungi halaman pembelian.

Langkah 1: Buat workflow

  1. Buka halaman Real-time Workflow Template di Konsol IMS dan klik Create Workflow Template.

  2. Pilih jenis workflow sesuai kebutuhan: Audio Call, Avatar Call, Vision Call , atau Video Call.image

    Speech-to-Text (STT)

    Node ini mengonversi input audio menjadi teks dan mendukung beberapa bahasa.

    image

    • Preset: Model preset sistem mendukung pemilihan bahasa sumber, pengaturan durasi diam, serta konfigurasi hotword kustom.

      • Language Model: Pilih bahasa sumber sesuai kebutuhan.

      • Silent Time: Durasi agent menunggu input suara pengguna sebelum timeout.

      • Custom Hotword: Untuk meningkatkan akurasi pengenalan istilah spesifik domain, konfigurasikan hotword. Untuk informasi selengkapnya, lihat Hotwords for speech recognition.

      • Sensitive Words: Jika Anda mengonfigurasi sensitive words, sistem secara otomatis menyamarkan kata-kata tersebut pada output sisi client dengan tanda bintang (*). Untuk informasi selengkapnya, lihat Custom sensitive words.

    • Third-party Plug-in: Saat ini hanya plug-in iFLYTEK yang didukung. Dapatkan parameter yang diperlukan di iFLYTEK.

    Large Language Model (LLM)

    Node LLM menggunakan teks dari node STT dan model bahasa besar untuk memahami serta menghasilkan bahasa alami.

    image

    Real-time Conversational AI mendukung integrasi dengan Qwen (preset sistem), Alibaba Cloud Model Studio, Tongyi Xingchen, dan model yang dikembangkan sendiri (kompatibel OpenAI).

    Alibaba Cloud Model Studio

    Alibaba Cloud Model Studio adalah platform satu atap untuk pengembangan model dan pembuatan aplikasi. Pilih dan integrasikan model serta layanan dari Alibaba Cloud Model Studio:

    • Model: Buka halaman Models, pilih model, lalu salin kodenya sebagai ModelId.

      image

    • Application: Buka halaman My Applications, buat aplikasi, lalu salin Application ID-nya.

      image

    • Buka halaman Key Management, buat dan salin kunci API.

      image

    Tongyi Xingchen

    Tongyi Xingchen memungkinkan Anda membuat agent yang sangat personal, masing-masing dengan persona dan gaya unik. Dikombinasikan dengan kemampuan interaksi suara real-time, agent ini dapat memberikan pengalaman interaktif yang kaya dalam berbagai skenario.

    • ModelId: Tongyi Xingchen menyediakan lima model berikut: xingchen-lite, xingchen-base, xingchen-plus, xingchen-plus-v2, dan xingchen-max.

    • API-KEY: Kunjungi Konsol Tongyi Xingchen untuk membuat dan mendapatkan Kunci API.

    Self-developed model (OpenAI-compliant)

    Real-time Conversational AI mendukung LLM yang dikembangkan sendiri dan mematuhi spesifikasi OpenAI.

    Spesifikasi OpenAI: Untuk menghubungkan model menggunakan spesifikasi OpenAI, berikan parameter berikut:

    Name

    Description

    Example

    ModelId

    Nama model. Parameter ini sesuai dengan field model dalam spesifikasi OpenAI.

    abc

    API-KEY

    Informasi autentikasi. Parameter ini sesuai dengan field api_key dalam spesifikasi OpenAPI.

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    Model URL (HTTPS)

    URL permintaan layanan. Parameter ini sesuai dengan field base_url dalam spesifikasi OpenAPI.

    http://www.abc.com

    Untuk detail lebih lanjut tentang integrasi LLM kustom, lihat Access LLMs.

    Text-to-Speech (TTS)

    Node ini mengonversi teks menjadi audio ucapan sehingga pengguna dapat mendengar respons sistem.

    image

    • Anda dapat memilih model TTS yang sesuai dengan aplikasi Anda:

      • Preset Template: Untuk template preset, Anda perlu mengonfigurasi suara. Contoh efek suara berbeda tersedia di Intelligent voice samples.

      • Self-developed Template: Integrasikan model Anda sendiri ke dalam workflow dengan mengikuti protokol standar. Untuk informasi selengkapnya, lihat Access TTS models.

      • Third-party Plug-in: Saat ini hanya MiniMax Speech Model yang didukung. Beberapa versi tersedia, dan kami merekomendasikan penggunaan versi terbaru. Untuk informasi selengkapnya, lihat MiniMax Speech Model.

    • Filter: Saring simbol tertentu dari output LLM sebelum dikonversi menjadi ucapan.

      image

    • Text Normalization: Mengonversi angka, simbol, dan kata non-standar lainnya ke dalam format lisan yang seragam agar teks-ke-ucapan terdengar lebih alami. Misalnya, fitur ini mengubah "$100" menjadi "seratus dolar."

    Avatar

    Node ini menghasilkan aliran video avatar yang bergerak dan berbicara sesuai teks dan audio yang diproses, dengan ekspresi wajah yang kaya.

    image

    Pilih salah satu opsi berikut di node ini:

    • Avatar Plug-in:

      • Faceunity: Hubungi layanan pelanggan FaceUnity untuk mengaktifkan layanan avatar 3D. Anda harus mendapatkan AppId, AppKey, dan AvatarId.

    • Lingjing Digital Avatar Platform: Ajukan tiket untuk mengaktifkan layanan.

    Video Frame Extraction

    Node ini mengekstraksi satu atau beberapa frame dari video.

    image

    Video Content Recognition

    Node ini mengidentifikasi aksi tertentu dalam video.

    image

    Multimodal Large Language Model (MLLM)

    MLLM menggunakan data dari node sebelumnya untuk memahami citra dan teks input, lalu menghasilkan respons dalam bahasa alami. Anda dapat mengontrol input model dengan memilih jenis model yang berbeda.

    image

    Real-time Conversational AI mendukung integrasi dengan Qwen (preset sistem), Alibaba Cloud Model Studio, Tongyi Xingchen, dan model yang dikembangkan sendiri (kompatibel OpenAI).

    Alibaba Cloud Model Studio

    Alibaba Cloud Model Studio adalah platform satu atap untuk pengembangan model dan pembuatan aplikasi. Pilih dan integrasikan model serta layanan dari Alibaba Cloud Model Studio:

    • Model: Buka halaman Models, pilih model, lalu salin kodenya sebagai ModelId.

      image

    • Application: Buka halaman My Applications, buat aplikasi, lalu salin Application ID-nya.

      image

    • Buka halaman Key Management, buat dan salin kunci API.

      image

    Tongyi Xingchen

    Tongyi Xingchen memungkinkan Anda membuat agent yang sangat personal, masing-masing dengan persona dan gaya unik. Dikombinasikan dengan kemampuan interaksi suara real-time, agent ini dapat memberikan pengalaman interaktif yang kaya dalam berbagai skenario.

    • ModelId: Tongyi Xingchen menyediakan lima model berikut: xingchen-lite, xingchen-base, xingchen-plus, xingchen-plus-v2, dan xingchen-max.

    • API-KEY: Kunjungi Konsol Tongyi Xingchen untuk membuat dan mendapatkan Kunci API.

    Self-developed model (OpenAI-compliant)

    Real-time Conversational AI juga mendukung LLM yang dikembangkan sendiri dan mematuhi spesifikasi OpenAI.

    Spesifikasi OpenAI: Untuk menghubungkan model menggunakan spesifikasi OpenAI, berikan parameter berikut:

    Parameter

    Type

    Required

    Description

    Example

    ModelId

    String

    Yes

    Nama model. Parameter ini sesuai dengan field model dalam spesifikasi OpenAI.

    abc

    API-KEY

    String

    Yes

    Informasi autentikasi. Parameter ini sesuai dengan field api_key dalam spesifikasi OpenAPI.

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    Model URL (HTTPS)

    String

    Yes

    URL permintaan layanan. Parameter ini sesuai dengan field base_url dalam spesifikasi OpenAPI.

    http://www.abc.com

    Maximum Number of Images per Call

    Integer

    Yes

    Beberapa model bahasa besar multi-modal membatasi jumlah frame citra yang dapat diterima dalam satu permintaan. Anda dapat mengatur parameter ini untuk menyesuaikan dengan model yang berbeda. Selama permintaan, frame video akan diambil sampelnya secara otomatis sesuai nilai ini.

    15

    Untuk detail lebih lanjut tentang integrasi LLM kustom, lihat Access LLMs.

  3. Klik Save untuk membuat workflow.

Langkah 2: Buat AI agent

  1. Buka halaman AI Agents di Konsol IMS dan klik Create AI Agent.

  2. Konfigurasikan informasi dasar dan bind workflow panggilan audio/video.

    1. Bind workflow. AI agent berjalan sesuai workflow tersebut.

      image

    2. Pilih aplikasi ApsaraVideo Real-time Communication (ARTC) di bawah akun Anda. Jika Anda belum memiliki aplikasi ARTC, sistem akan membuatnya secara otomatis. Untuk informasi selengkapnya tentang ARTC, lihat ARTC overview.

      image

      Catatan

      Aplikasi ARTC menangani komunikasi real-time yang diperlukan untuk percakapan.

    3. Saat Anda mengikat workflow panggilan audio, Anda dapat mengunggah gambar profil kustom di bagian Advanced Feature. Sistem akan menampilkan gambar tersebut selama panggilan suara.image

  3. Klik Submit untuk membuat agent.

Langkah 3: Uji agent

Setelah membuat agent, Anda dapat mengujinya dengan memindai kode QR untuk demo.

  1. Di halaman AI Agents, hasilkan kode QR untuk demo.

    image

  2. Pindai kode QR tersebut menggunakan DingTalk, WeChat, atau browser, atau salin URL demo ke browser Anda.

    image

Langkah 4: Integrasi agent

Parameter berikut diperlukan untuk integrasi. Untuk mempelajari cara mengintegrasikan agent ke dalam proyek Anda guna mengimplementasikan panggilan audio/video, lihat Integrate an audio/video call agent.

  • Region ID: Wilayah tempat workflow dan agent Anda berada sebagaimana ditampilkan di Konsol IMS.

    image

    Region Name

    Region ID

    China (Hangzhou)

    cn-hangzhou

    China (Shanghai)

    cn-shanghai

    China (Beijing)

    cn-beijing

    China (Shenzhen)

    cn-shenzhen

    Singapore

    ap-southeast-1

  • AppID dan AppKey aplikasi ARTC

    image

    image

  • AccessKey pair: Untuk mendapatkan AccessKey ID dan AccessKey secret, lihat Create an AccessKey pair.