リアルタイム RTC 字幕によるライブ翻訳ワークフローの構築 - Intelligent Media Services

このドキュメントでは、スマートメディア処理にインテリジェントワークフローを使用する方法について説明します。モジュール式のワークフローを作成し、処理フローをカスタマイズできます。

シナリオ 1: ライブストリーム翻訳

インテリジェントワークフローを使用して、ライブストリームで音声認識を実行できます。ワークフローはリアルタイム翻訳を生成し、各文の中間結果と最終結果をコールバック経由で HTTP サーバーに送信します。

全体的なトポロジー構成

トポロジーには、開始、自動音声認識 (ASR)、大規模言語モデル (LLM)、コード実行、HTTP リクエスト、終了の 6 つのノードが含まれます。

ノード構成は次のとおりです。

開始ノード

ワークフローを開始するときは、次の入力パラメーターを開始ノードに渡します。

{
  "live_url": {
      "Url": "rtmp://test.com/test_app/test_stream?auth_key=test",
      "MaxIdleTime": 20
  },
  "source_language_id": "es"
}

パラメーター

必須

説明

live_url

はい

次のフィールドを持つオブジェクトとして渡します:

Url: 公開アクセス可能なライブストリーミング URL。
MaxIdleTime: ライブストリームをプルするためのタイムアウト期間。20 秒を超えてデータが受信されない場合、タスクは停止します。

source_language_id

はい

ソース言語。次のリストから値を選択します。

標準中国語: zh
英語: en
スペイン語: es
日本語: ja
韓国語: ko
フランス語: fr
タイ語: th
ロシア語: ru
ドイツ語: de
広西チワン族自治区の方言: guangxi
ポルトガル語: pt
広東語: yue
繁体字広東語: yue_hant
閩南語: minnan
ポーランド語: pl
イタリア語: it
ウクライナ語: uk
オランダ語: nl
アラビア語: ar
インドネシア語: id
トルコ語: tr
ベトナム語: vi

ASR ノード

入力変数については、開始ノードの live_url パラメーターを参照します。入力言語については、開始ノードの source_language_id パラメーターを参照します。他のパラメーターはデフォルトのままにするか、必要に応じて構成できます。

LLM ノード

この例では、カスタムモデル統合 (OpenAI 互換) メソッドを使用して qwen-mt-turbo モデルを構成する方法を示します。API キーの取得方法の詳細については、「API キーの取得」をご参照ください。モデルパラメーターでは、ソース言語 (`auto` に設定可能) とターゲット言語を設定する必要があります。ユーザープロンプトは、ASR ノードからの中間結果または最終結果を直接参照できます。

コード実行ノード

ASR の結果と LLM の翻訳結果をマージしてビジネスサーバーにコールバックするには、コード実行ノードの Python スクリプトを使用して結果をアセンブルします。LLM の出力を ASR 結果の TransText フィールドに設定します。次に、コールバックデータとして JSONObject を返します。

HTTP リクエストノード

次の設定を構成します:

API 構成: コールバックサーバーのパブリックアドレス。
URL パラメーター: result_type=mid_en。コールバックタイプをカスタマイズできます。
リクエスト本文のタイプ: json。
リクエスト本文データ: コールバックデータからの JSON 出力を参照します。

シナリオ 2: RTC 字幕認識

インテリジェントワークフローを使用して、リアルタイムコミュニケーション (RTC) チャンネル内の指定されたオーディオストリームで ASR を実行できます。認識結果は、字幕を表示するために DataChannel コールバックを介してクライアントに送信されます。

全体的なトポロジー構成

トポロジーには、開始、ASR、RTC インジェスト、終了の 4 つのノードが含まれます。

ノード構成は次のとおりです。

開始ノード

変数の説明:

rtc: ワークフローを開始するときに、RTC パラメーターを渡します。これらには、AppId、ChannelId、UserId が含まれます。また、出力オーディオストリームを選択する必要もあります。
source_language_id: 認識用のソース言語。
push_app_id: DataChannel コールバック用の RTC AppId。
push_channel_id: DataChannel コールバック用の RTC ChannelId。
push_uid: DataChannel コールバック用の RTC UserId。

変数の例:

{
  "rtc": {
    "AppId": "xxx",
    "ChannelId": "rtcaitest1",
    "UserId": "userA"
  },
  "source_language_id": "zh",
  "push_app_id": "app_id",
  "push_channel_id": "channel_id",
  "push_uid": "user_id"
}

ASR ノード

入力変数については、開始ノードのライブストリーム入力からのオーディオを参照します。入力言語については、開始ノードの source_language_id パラメーターを参照します。他のパラメーターはデフォルト値のままにするか、必要に応じてカスタマイズできます。

RTC インジェストノード

text 入力変数は、自動音声認識 (ASR) サービスからの出力テキストを参照する必要があります。App ID、チャンネル ID、およびユーザー ID は、開始ノードの push_app_id、push_channel_id、および push_uid フィールドに対応し、DataChannel アップストリーミングのロール情報を表します。