Praktik terbaik konfigurasi alur kerja cerdas - Intelligent Media Services

Dokumen ini menjelaskan cara menggunakan alur kerja cerdas untuk pemrosesan media cerdas. Anda dapat membuat alur kerja modular dan menyesuaikan alur pemrosesan.

Skenario 1: Terjemahan siaran langsung

Anda dapat menggunakan alur kerja cerdas untuk melakukan pengenalan ucapan pada siaran langsung. Alur kerja menghasilkan terjemahan waktu nyata serta mengirim hasil antara dan hasil akhir untuk setiap kalimat ke server HTTP Anda melalui callback.

Konfigurasi topologi keseluruhan

Topologi mencakup enam node: Start, Automatic Speech Recognition (ASR), Large Language Model (LLM), Code Execution, HTTP Request, dan End.

Konfigurasi node adalah sebagai berikut:

Node Awal

Saat memulai alur kerja, teruskan parameter input berikut ke node Start:

{
  "live_url": {
      "Url": "rtmp://test.com/test_app/test_stream?auth_key=test",
      "MaxIdleTime": 20
  },
  "source_language_id": "es"
}

Parameter

Wajib

Deskripsi

live_url

Diteruskan sebagai Objek dengan bidang-bidang berikut:

Url: URL streaming langsung yang dapat diakses publik.
MaxIdleTime: Periode waktu habis untuk menarik siaran langsung. Tugas berhenti jika tidak ada data yang diterima selama lebih dari 20 detik.

source_language_id

Bahasa sumber. Pilih nilai dari daftar berikut.

Bahasa Mandarin: zh
Inggris: en
Spanyol: es
Jepang: ja
Korea: ko
Prancis: fr
Thailand: th
Rusia: ru
Jerman: de
Dialek Guangxi: guangxi
Portugis: pt
Kanton: yue
Kanton Tradisional: yue_hant
Minnan: minnan
Polandia: pl
Italia: it
Ukraina: uk
Belanda: nl
Arab: ar
Indonesia: id
Turki: tr
Vietnam: vi

Node ASR

Untuk variabel input, rujuk parameter live_url dari node Start. Untuk bahasa input, rujuk parameter source_language_id dari node Start. Parameter lainnya dapat dibiarkan pada nilai default atau dikonfigurasi sesuai kebutuhan.

Node LLM

Contoh ini menunjukkan cara mengonfigurasi model qwen-mt-turbo menggunakan metode Integrasi Model Kustom (kompatibel OpenAI). Untuk informasi lebih lanjut tentang cara mendapatkan Kunci API, lihat Mendapatkan Kunci API. Dalam parameter model, Anda harus menetapkan bahasa sumber (yang dapat diatur ke `auto`) dan bahasa target. Prompt pengguna dapat langsung merujuk hasil antara atau hasil akhir dari node ASR.

Node eksekusi kode

Untuk menggabungkan hasil ASR dan hasil terjemahan LLM guna dikirim melalui callback ke server bisnis Anda, gunakan skrip Python di node Code Execution untuk menyusun hasil tersebut. Tetapkan output LLM ke bidang TransText dari hasil ASR, lalu kembalikan JSONObject sebagai data callback.

Node permintaan HTTP

Konfigurasikan pengaturan berikut:

Konfigurasi API: Alamat publik server callback Anda.
Parameter URL: result_type=mid_en. Anda dapat menyesuaikan jenis callback.
Jenis isi permintaan: json.
Data isi permintaan: Rujuk output JSON dari data callback.

Skenario 2: Pengenalan teks RTC

Anda dapat menggunakan alur kerja cerdas untuk melakukan ASR pada aliran audio tertentu dalam saluran Real-Time Communication (RTC). Hasil pengenalan dikirim ke klien melalui callback DataChannel untuk menampilkan teks.

Konfigurasi topologi keseluruhan

Topologi mencakup empat node: Start, ASR, RTC Ingest, dan End.

Konfigurasi node adalah sebagai berikut:

Node awal

Deskripsi variabel:

rtc: Saat memulai alur kerja, teruskan parameter RTC yang mencakup AppId, ChannelId, dan UserId. Anda juga perlu memilih aliran audio keluaran.
source_language_id: Bahasa sumber untuk pengenalan.
push_app_id: RTC AppId untuk callback DataChannel.
push_channel_id: RTC ChannelId untuk callback DataChannel.
push_uid: RTC UserId untuk callback DataChannel.

Contoh variabel:

{
  "rtc": {
    "AppId": "xxx",
    "ChannelId": "rtcaitest1",
    "UserId": "userA"
  },
  "source_language_id": "zh",
  "push_app_id": "app_id",
  "push_channel_id": "channel_id",
  "push_uid": "user_id"
}

Node ASR

Untuk variabel input, rujuk audio dari input siaran langsung node Start. Untuk bahasa input, rujuk parameter source_language_id dari node Start. Parameter lainnya dapat dibiarkan pada nilai default atau disesuaikan sesuai kebutuhan.

Node ingest RTC

Variabel input text harus merujuk teks keluaran dari layanan Automatic Speech Recognition (ASR). App ID, ID saluran, dan ID pengguna berkorespondensi dengan bidang push_app_id, push_channel_id, dan push_uid dari node Start, yang merepresentasikan informasi peran untuk pengambilan aliran DataChannel.