このトピックでは、音声およびビデオエージェントを迅速に作成する方法について説明します。
サービスの有効化
リアルタイム対話型 AI を使用する前に、次の要件が満たされていることを確認してください:
Intelligent Media Services (IMS) のサブスクリプションが IMS Enterprise Standard Edition または Ultimate Edition にアップグレードされていること。サブスクライブしたサービスをアップグレードするには、IMS サブスクリプション ページに移動します。
リアルタイム対話型 AI 機能が有効になっていること。この機能を有効にするには、購入ページ に移動します。
ステップ 1: 音声およびビデオワークフローの作成
Intelligent Media Services コンソール にログインし、[ワークフローテンプレートの作成] をクリックします。
必要に応じて [音声通話]、[デジタルヒューマン通話]、[視覚理解通話]、または [ビデオ通話] を選択し、ワークフローノードを設定します。

STT 音声認識
このノードは、音声入力をテキストに変換し、多言語での認識をサポートします。

システムプリセット: プリセットのシステムモデルを使用すると、言語モデルの選択、無音期間の設定、カスタムホットワードの設定ができます。
言語モデル: ビジネスシナリオに基づいて、さまざまな言語モデルを選択できます。
無音期間: ユーザーからの音声入力がない場合にエージェントが待機する時間。
カスタムホットワード: ホットワードを設定して、ビジネス固有の語彙の認識精度を向上させることができます。詳細については、「音声認識ホットワード」をご参照ください。
カスタム禁止用語: 禁止用語を設定すると、音声認識で禁止用語が検出された場合、クライアント側の字幕で自動的にアスタリスク (*) に置き換えられます。詳細については、「カスタム禁止用語」をご参照ください。
サードパーティプラグイン: iFLYTEK 音声認識 を選択できます。必須パラメーターを取得するには、iFLYTEK リアルタイム音声認識 ページにアクセスしてください。
LLM (大規模言語モデル)
大規模言語モデル (LLM) ノードは、大規模な事前トレーニング済み言語モデルを使用して、音声認識 (STT) ノードからのテキスト入力に基づいて自然言語テキストを理解し、生成します。

リアルタイム対話型 AI は現在、Qwen (システムプリセット)、Alibaba Cloud Model Studio、Alibaba Tongyi Xingchen、および自己開発モデル (OpenAI 準拠) への接続をサポートしています。
Alibaba Cloud Model Studio
Alibaba Cloud Model Studio は、大規模モデルを開発し、アプリケーションを構築するためのワンストッププラットフォームです。[モデルハブ] または [App Center] のいずれかから言語モデルとサービスに接続できます。
モデルハブ: Alibaba Cloud Model Studio の モデルスクエア で、要件を満たすモデルを選択し、[詳細の表示] をクリックして ModelId を取得します。[API KEY] をクリックして [API-KEY] を取得します。
アプリケーションセンター: まず、Alibaba Cloud Model Studio で エージェントアプリケーションを作成 する必要があります。アプリケーションが作成されたら、AppId を取得します。
[呼び出し] をクリックして、エージェントアプリケーションインターフェイスを開きます。右上隅にある [API KEY] をクリックして API-KEY を取得します。
Alibaba Tongyi Xingchen
Alibaba Tongyi Xingchen を使用すると、独自の個性とスタイルを持つ、高度にパーソナライズされたエージェントを作成できます。デジタルヒューマンのリアルタイム対話型音声機能と組み合わせることで、これらのエージェントはさまざまなシナリオで豊かな対話を行うことができます。
ModelId: Alibaba Tongyi Xingchen は現在、
xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-maxの 5 つのモデルを提供しています。API-KEY: Xingchen コンソール にアクセスして API KEY を作成し、取得します。
自己開発 (OpenAI 準拠)
リアルタイム対話型 AI は、OpenAI 標準に準拠した自己開発の大規模モデルへの接続もサポートしています。
OpenAI 標準: OpenAI 標準に準拠して接続する場合、次のパラメーターを入力する必要があります:
名前
説明
例
ModelId
標準の OpenAI モデルフィールドで、モデル名を示します。
abc
API-KEY
標準の OpenAI api_key フィールドで、API 認証情報を示します。
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
ターゲットモデルの HTTPS アドレス
標準の OpenAI base_url フィールドで、ターゲットサービスのリクエストアドレスを示します。
http://www.abc.com
自己開発 LLM の統合に関する詳細については、「LLM 標準インターフェイス」をご参照ください。
TTS 音声合成
このノードは、処理されたテキストを音声に変換し直し、ユーザーがシステムの応答を聞けるようにします。

シナリオに合わせて、[プリセットテンプレート]、[カスタムテンプレート]、[サードパーティプラグイン] などの音声合成 (TTS) モデルを選択できます。
プリセットテンプレート: プリセットテンプレートを選択する際に、音声を設定します。さまざまなスマート音声効果の例については、「スマート音声効果の例」をご参照ください。
カスタムテンプレート: 標準プロトコルを使用して、カスタムの大規模モデルをワークフローに追加します。詳細については、「標準 TTS API」をご参照ください。
サードパーティプラグイン: 現在、[MiniMax 音声モデル] のみがサポートされています。複数のバージョンが利用可能です。最新バージョンを使用してください。詳細については、「MiniMax 音声モデル」をご参照ください。
音声合成 (TTS) ノードでは、LLM から受信したテキストを音声に変換する前にフィルタリングすることもできます。

テキストの正規化: テキスト内の数字、記号、その他の要素を標準フォーマットに変換して、合成音声の品質を向上させます。たとえば、「120°」は「百二十度」に変換されます。
デジタルヒューマン
このノードは、処理されたテキストと音声に同期したアクション、表情、口の動きを持つデジタルヒューマンのビデオストリームを生成します。

デジタルヒューマンノードは現在、[デジタルヒューマンプラグイン] または [Alibaba Lingjing デジタルヒューマン] のいずれかへの接続をサポートしています:
ビデオフレーム抽出
このノードは、ビデオから単一または複数のイメージフレームを抽出します。

ビデオコンテンツの理解
このノードは、ビデオコンテンツに特定の動作が存在するかどうかを検出します。

MLLM (マルチモーダル大規模言語モデル)
先行するノードからのデータを使用して、マルチモーダル大規模言語モデル (MLLM) は入力された画像とテキストを理解し、自然言語テキストを生成できます。また、異なるモデルタイプを選択することで、モデルの入力を制御することもできます。

リアルタイム対話型 AI は現在、Qwen (システムプリセット)、Alibaba Cloud Model Studio、Alibaba Tongyi Xingchen、および自己開発の大規模モデルへの接続をサポートしています。
Alibaba Cloud Model Studio
Alibaba Cloud Model Studio は、大規模モデルを開発し、アプリケーションを構築するためのワンストッププラットフォームです。[モデルハブ] または [App Center] のいずれかから言語モデルとサービスに接続できます。
モデルハブ: Alibaba Cloud Model Studio の モデルスクエア で、要件を満たすモデルを選択し、[詳細の表示] をクリックして ModelId を取得します。[API-KEY] をクリックして API-KEY を取得します。
アプリケーションセンター: まず、Alibaba Cloud Model Studio で エージェントアプリケーションを作成 します。アプリケーションが作成されたら、AppId を取得します。
重要エージェントアプリケーションを作成する際には、マルチモーダル大規模モデル
qwen-vl-maxまたはqwen-vl-plusを選択する必要があります。そうしないと、ビデオタイプのエージェントを公開できません。[呼び出し] をクリックして、エージェントアプリケーションインターフェイスを開きます。右上隅にある [API KEY] をクリックして API-KEY を取得します。
Tongyi Xingchen
Tongyi Xingchen を使用すると、独自の個性とスタイルを持つ、高度にパーソナライズされたエージェントを作成できます。デジタルヒューマンのリアルタイム対話型音声機能と組み合わせることで、これらのエージェントはさまざまなシナリオで豊かな対話を行うことができます。
ModelId: Tongyi Xingchen は現在、
xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-maxの 5 つのモデルを提供しています。API-KEY: Xingchen コンソール にアクセスして API KEY を作成し、取得します。
自己開発モデル
リアルタイム対話型 AI は、OpenAI 標準 に準拠した自己開発の大規模モデルへの接続もサポートしています。
OpenAI 標準: OpenAI 標準に準拠して接続する場合、次のパラメーターを入力する必要があります:
パラメーター
タイプ
必須
説明
例
ModelId
String
はい
モデル名。このパラメーターは、OpenAI 仕様のモデルフィールドに対応します。
abc
API-KEY
String
はい
認証情報。このパラメーターは、OpenAI 仕様の api_key フィールドに対応します。
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
宛先モデルの HTTPS URL
String
はい
サービスリクエスト URL。このパラメーターは、OpenAI 仕様の base_url フィールドに対応します。
http://www.abc.com
1 回の呼び出しあたりの最大画像数
Integer
はい
MLLM へのリクエストに含まれる画像の最大数。一部の MLLM がリクエストごとに受信できる画像フレームの最大数は固定されています。これらのモデルに対してこのパラメーターを指定できます。MLLM をリクエストすると、指定された値に基づいてサンプリングのためにビデオからフレームが抽出されます。
15
カスタム統合の開発に関する詳細については、「MLLM 標準インターフェイス」をご参照ください。
[保存] をクリックして、音声およびビデオワークフローを作成します。
ステップ 2: 音声およびビデオエージェントの作成
Intelligent Media Services コンソール にログインし、[エージェントの作成] をクリックします。
基本情報を設定し、音声およびビデオのリアルタイムワークフローをアタッチします。
AI エージェントが実行するための特定の音声およびビデオワークフローをアタッチします。

エージェントを設定する際に、既存の ApsaraVideo Real-time Communication (ARTC) アプリケーションを選択します。ARTC アプリケーションがない場合は、自動作成オプションを選択できます。ApsaraVideo Real-time Communication の詳細については、「ApsaraVideo Real-time Communication の概要」をご参照ください。
説明リアルタイム対話型 AI は ARTC アプリケーションに依存します。ARTC アプリケーションは通信ブリッジとして機能し、対話機能が正しく機能することを保証します。
アタッチされたワークフローが音声通話ワークフローである場合、高度な機能設定でカスタムアバターをアップロードできます。このアバターは音声通話シナリオで表示されます。

[送信] をクリックして、音声およびビデオエージェントを作成します。
ステップ 3: エージェントの試用
対話型エージェントが作成された後、トライアル QR コードをスキャンして試用できます。
コンソール で、デモトライアル QR コードを生成します。

DingTalk、WeChat、またはブラウザを使用して QR コードをスキャンします。トライアル URL をブラウザにコピーして H5 デモを体験することもできます。

音声およびビデオエージェントの統合
統合を開始する前に、次のパラメーターを取得する必要があります。音声およびビデオエージェントをプロジェクトに統合する手順については、「音声およびビデオ通話エージェントの統合」をご参照ください。
リージョン ID: Intelligent Media Services コンソールでワークフローとエージェントが配置されているリージョン。

リージョン名
リージョン ID
中国 (杭州)
cn-hangzhou
中国 (上海)
cn-shanghai
中国 (北京)
cn-beijing
中国 (深圳)
cn-shenzhen
シンガポール
ap-southeast-1
ARTC アプリケーションの AppId と AppKey


AccessKey ID と AccessKey Secret: 詳細については、「AccessKey の作成」をご参照ください。