全部产品
Search
文档中心

Intelligent Media Services:Praktik terbaik konfigurasi alur kerja cerdas

更新时间:Nov 11, 2025

Dokumen ini menjelaskan cara menggunakan alur kerja cerdas untuk pemrosesan media cerdas. Anda dapat membuat alur kerja modular dan menyesuaikan alur pemrosesan.

Skenario 1: Terjemahan siaran langsung

Anda dapat menggunakan alur kerja cerdas untuk melakukan pengenalan ucapan pada siaran langsung. Alur kerja menghasilkan terjemahan waktu nyata serta mengirim hasil antara dan hasil akhir untuk setiap kalimat ke server HTTP Anda melalui callback.

Konfigurasi topologi keseluruhan

image

Topologi mencakup enam node: Start, Automatic Speech Recognition (ASR), Large Language Model (LLM), Code Execution, HTTP Request, dan End.

Konfigurasi node adalah sebagai berikut:

Node Awal

image

Saat memulai alur kerja, teruskan parameter input berikut ke node Start:

{
  "live_url": {
      "Url": "rtmp://test.com/test_app/test_stream?auth_key=test",
      "MaxIdleTime": 20
  },
  "source_language_id": "es"
}

Parameter

Wajib

Deskripsi

live_url

Ya

Diteruskan sebagai Objek dengan bidang-bidang berikut:

  • Url: URL streaming langsung yang dapat diakses publik.

  • MaxIdleTime: Periode waktu habis untuk menarik siaran langsung. Tugas berhenti jika tidak ada data yang diterima selama lebih dari 20 detik.

source_language_id

Ya

Bahasa sumber. Pilih nilai dari daftar berikut.

Bahasa Mandarin: zh
Inggris: en
Spanyol: es
Jepang: ja
Korea: ko
Prancis: fr
Thailand: th
Rusia: ru
Jerman: de
Dialek Guangxi: guangxi
Portugis: pt
Kanton: yue
Kanton Tradisional: yue_hant
Minnan: minnan
Polandia: pl
Italia: it
Ukraina: uk
Belanda: nl
Arab: ar
Indonesia: id
Turki: tr
Vietnam: vi

Node ASR

image

Untuk variabel input, rujuk parameter live_url dari node Start. Untuk bahasa input, rujuk parameter source_language_id dari node Start. Parameter lainnya dapat dibiarkan pada nilai default atau dikonfigurasi sesuai kebutuhan.

Node LLM

image

Contoh ini menunjukkan cara mengonfigurasi model qwen-mt-turbo menggunakan metode Integrasi Model Kustom (kompatibel OpenAI). Untuk informasi lebih lanjut tentang cara mendapatkan Kunci API, lihat Mendapatkan Kunci API. Dalam parameter model, Anda harus menetapkan bahasa sumber (yang dapat diatur ke `auto`) dan bahasa target. Prompt pengguna dapat langsung merujuk hasil antara atau hasil akhir dari node ASR.

Node eksekusi kode

image

Untuk menggabungkan hasil ASR dan hasil terjemahan LLM guna dikirim melalui callback ke server bisnis Anda, gunakan skrip Python di node Code Execution untuk menyusun hasil tersebut. Tetapkan output LLM ke bidang TransText dari hasil ASR, lalu kembalikan JSONObject sebagai data callback.

Node permintaan HTTP

image

Konfigurasikan pengaturan berikut:

  • Konfigurasi API: Alamat publik server callback Anda.

  • Parameter URL: result_type=mid_en. Anda dapat menyesuaikan jenis callback.

  • Jenis isi permintaan: json.

  • Data isi permintaan: Rujuk output JSON dari data callback.

Skenario 2: Pengenalan teks RTC

Anda dapat menggunakan alur kerja cerdas untuk melakukan ASR pada aliran audio tertentu dalam saluran Real-Time Communication (RTC). Hasil pengenalan dikirim ke klien melalui callback DataChannel untuk menampilkan teks.

Konfigurasi topologi keseluruhan

image

Topologi mencakup empat node: Start, ASR, RTC Ingest, dan End.

Konfigurasi node adalah sebagai berikut:

Node awal

image

Deskripsi variabel:

  • rtc: Saat memulai alur kerja, teruskan parameter RTC yang mencakup AppId, ChannelId, dan UserId. Anda juga perlu memilih aliran audio keluaran.

  • source_language_id: Bahasa sumber untuk pengenalan.

  • push_app_id: RTC AppId untuk callback DataChannel.

  • push_channel_id: RTC ChannelId untuk callback DataChannel.

  • push_uid: RTC UserId untuk callback DataChannel.

Contoh variabel:

{
  "rtc": {
    "AppId": "xxx",
    "ChannelId": "rtcaitest1",
    "UserId": "userA"
  },
  "source_language_id": "zh",
  "push_app_id": "app_id",
  "push_channel_id": "channel_id",
  "push_uid": "user_id"
}

Node ASR

image

Untuk variabel input, rujuk audio dari input siaran langsung node Start. Untuk bahasa input, rujuk parameter source_language_id dari node Start. Parameter lainnya dapat dibiarkan pada nilai default atau disesuaikan sesuai kebutuhan.

Node ingest RTC

image

Variabel input text harus merujuk teks keluaran dari layanan Automatic Speech Recognition (ASR). App ID, ID saluran, dan ID pengguna berkorespondensi dengan bidang push_app_id, push_channel_id, dan push_uid dari node Start, yang merepresentasikan informasi peran untuk pengambilan aliran DataChannel.