このドキュメントでは、スマートメディア処理にインテリジェントワークフローを使用する方法について説明します。モジュール式のワークフローを作成し、処理フローをカスタマイズできます。
シナリオ 1: ライブストリーム翻訳
インテリジェントワークフローを使用して、ライブストリームで音声認識を実行できます。ワークフローはリアルタイム翻訳を生成し、各文の中間結果と最終結果をコールバック経由で HTTP サーバーに送信します。
全体的なトポロジー構成

トポロジーには、開始、自動音声認識 (ASR)、大規模言語モデル (LLM)、コード実行、HTTP リクエスト、終了の 6 つのノードが含まれます。
ノード構成は次のとおりです。
開始ノード

ワークフローを開始するときは、次の入力パラメーターを開始ノードに渡します。
{
"live_url": {
"Url": "rtmp://test.com/test_app/test_stream?auth_key=test",
"MaxIdleTime": 20
},
"source_language_id": "es"
}パラメーター | 必須 | 説明 |
live_url | はい | 次のフィールドを持つオブジェクトとして渡します:
|
source_language_id | はい | ソース言語。次のリストから値を選択します。 |
標準中国語: zh
英語: en
スペイン語: es
日本語: ja
韓国語: ko
フランス語: fr
タイ語: th
ロシア語: ru
ドイツ語: de
広西チワン族自治区の方言: guangxi
ポルトガル語: pt
広東語: yue
繁体字広東語: yue_hant
閩南語: minnan
ポーランド語: pl
イタリア語: it
ウクライナ語: uk
オランダ語: nl
アラビア語: ar
インドネシア語: id
トルコ語: tr
ベトナム語: viASR ノード

入力変数については、開始ノードの live_url パラメーターを参照します。入力言語については、開始ノードの source_language_id パラメーターを参照します。他のパラメーターはデフォルトのままにするか、必要に応じて構成できます。
LLM ノード

この例では、カスタムモデル統合 (OpenAI 互換) メソッドを使用して qwen-mt-turbo モデルを構成する方法を示します。API キーの取得方法の詳細については、「API キーの取得」をご参照ください。モデルパラメーターでは、ソース言語 (`auto` に設定可能) とターゲット言語を設定する必要があります。ユーザープロンプトは、ASR ノードからの中間結果または最終結果を直接参照できます。
コード実行ノード

ASR の結果と LLM の翻訳結果をマージしてビジネスサーバーにコールバックするには、コード実行ノードの Python スクリプトを使用して結果をアセンブルします。LLM の出力を ASR 結果の TransText フィールドに設定します。次に、コールバックデータとして JSONObject を返します。
HTTP リクエストノード

次の設定を構成します:
API 構成: コールバックサーバーのパブリックアドレス。
URL パラメーター: result_type=mid_en。コールバックタイプをカスタマイズできます。
リクエスト本文のタイプ: json。
リクエスト本文データ: コールバックデータからの JSON 出力を参照します。
シナリオ 2: RTC 字幕認識
インテリジェントワークフローを使用して、リアルタイムコミュニケーション (RTC) チャンネル内の指定されたオーディオストリームで ASR を実行できます。認識結果は、字幕を表示するために DataChannel コールバックを介してクライアントに送信されます。
全体的なトポロジー構成

トポロジーには、開始、ASR、RTC インジェスト、終了の 4 つのノードが含まれます。
ノード構成は次のとおりです。
開始ノード

変数の説明:
rtc: ワークフローを開始するときに、RTC パラメーターを渡します。これらには、AppId、ChannelId、UserId が含まれます。また、出力オーディオストリームを選択する必要もあります。
source_language_id: 認識用のソース言語。
push_app_id: DataChannel コールバック用の RTC AppId。
push_channel_id: DataChannel コールバック用の RTC ChannelId。
push_uid: DataChannel コールバック用の RTC UserId。
変数の例:
{
"rtc": {
"AppId": "xxx",
"ChannelId": "rtcaitest1",
"UserId": "userA"
},
"source_language_id": "zh",
"push_app_id": "app_id",
"push_channel_id": "channel_id",
"push_uid": "user_id"
}ASR ノード

入力変数については、開始ノードのライブストリーム入力からのオーディオを参照します。入力言語については、開始ノードの source_language_id パラメーターを参照します。他のパラメーターはデフォルト値のままにするか、必要に応じてカスタマイズできます。
RTC インジェストノード

text 入力変数は、自動音声認識 (ASR) サービスからの出力テキストを参照する必要があります。App ID、チャンネル ID、およびユーザー ID は、開始ノードの push_app_id、push_channel_id、および push_uid フィールドに対応し、DataChannel アップストリーミングのロール情報を表します。