インタラクティブメッセージングのクイックスタート - Intelligent Media Services

このトピックでは、インタラクティブメッセージングエージェントをすばやく作成する方法について説明します。

リアルタイム対話型 AI を使用する前に、次の要件が満たされていることを確認してください。

Intelligent Media Services (IMS) サブスクリプションが IMS Enterprise Standard Edition または Ultimate Edition にアップグレードされていること。サブスクライブしたサービスをアップグレードするには、IMS サブスクリプションページに移動します。
リアルタイム対話型 AI 機能が有効になっていること。この機能を有効にするには、購入ページに移動します。

ステップ 1: インタラクティブメッセージングワークフローの作成

Intelligent Media Services コンソールにログインし、[ワークフローテンプレートの作成] をクリックします。

[インタラクティブメッセージング] ワークフロータイプを選択し、必要に応じてノード情報を設定します。

説明

音声認識または音声合成機能を使用するには、次のノードを設定する必要があります。

音声認識を有効にするには、[STT 音声テキスト変換] ノードを設定します。
音声合成の再生を有効にするには、[TTS テキスト音声合成] ノードを設定します。

STT 音声テキスト変換

このノードは、音声入力をテキストに変換し、複数の言語をサポートします。

システムプリセット: システムプリセットモデルでは、言語モデルの選択、無音期間の設定、カスタムホットワードの設定ができます。
- 言語モデル: ビジネスシナリオに基づいて、さまざまな言語モデルを選択できます。
- 無音期間: ユーザーからの音声入力がない場合にエージェントが待機する時間。
- カスタムホットワード: ドメイン固有の語彙の認識精度を向上させるためにホットワードを設定します。詳細については、「音声認識ホットワード」をご参照ください。
サードパーティプラグイン: 現在、iFLYTEK 音声認識 を選択できます。必須パラメーターを取得するには、iFLYTEK リアルタイム音声テキスト変換に移動してください。

TTS テキスト音声合成

このノードは、処理されたテキストを音声に変換し直し、ユーザーがシステムの応答を聞けるようにします。

シナリオに合わせて、[プリセットテンプレート]、[カスタムテンプレート]、[サードパーティプラグイン] などの音声合成 (TTS) モデルを選択できます。

プリセットテンプレート: プリセットテンプレートを選択する際に、音声を設定します。さまざまなスマート音声効果の例については、「スマート音声効果の例」をご参照ください。
カスタムテンプレート: 標準プロトコルを使用して、カスタムの大規模モデルをワークフローに追加します。詳細については、「標準 TTS API」をご参照ください。
サードパーティプラグイン: 現在、[MiniMax 音声モデル] のみがサポートされています。複数のバージョンが利用可能です。最新バージョンを使用してください。詳細については、「MiniMax 音声モデル」をご参照ください。

LLM 大規模言語モデル

大規模言語モデル (LLM) ノードは、大規模な事前学習済み言語モデルを使用して、音声テキスト変換 (STT) ノードからのテキスト入力に基づいて自然言語テキストを理解し、生成します。

リアルタイム対話型 AI は現在、Qwen (システムプリセット)、Alibaba Cloud Model Studio、Alibaba Tongyi Xingchen、および自己開発モデル (OpenAI 準拠) への接続をサポートしています。

Alibaba Cloud Model Studio

Alibaba Cloud Model Studio は、大規模モデルを開発し、アプリケーションを構築するためのワンストッププラットフォームです。[モデルハブ] または [アプリセンター] のいずれかから言語モデルやサービスに接続できます。

モデルハブ: Alibaba Cloud Model Studio のモデルスクエアで、要件を満たすモデルを選択し、[詳細を表示] をクリックして ModelId を取得します。[API KEY] をクリックして [API-KEY] を取得します。
アプリケーションセンター: まず、Alibaba Cloud Model Studio でエージェントアプリケーションを作成する必要があります。アプリケーションが作成されたら、AppId を取得します。
[呼び出し] をクリックしてエージェントアプリケーションインターフェイスを開きます。右上隅にある [API KEY] をクリックして API-KEY を取得します。

Alibaba Tongyi Xingchen

Alibaba Tongyi Xingchen を使用すると、独自の個性とスタイルを持つ、深くパーソナライズされたエージェントを作成できます。デジタルヒューマンのリアルタイム対話型音声機能と組み合わせることで、これらのエージェントはさまざまなシナリオで豊かなインタラクションを行うことができます。

ModelId: Alibaba Tongyi Xingchen は現在、xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max の 5 つのモデルを提供しています。
API-KEY: Xingchen コンソールにアクセスして API KEY を作成し、取得します。

自己開発 (OpenAI 準拠)

リアルタイム対話型 AI は、OpenAI 標準に準拠した自己開発の大規模モデルへの接続もサポートしています。

OpenAI 標準: OpenAI 標準に準拠して接続することを選択した場合、次のパラメーターを入力する必要があります:

名前	説明	例
ModelId	モデル名を示す標準の OpenAI モデルフィールド。	abc
API-KEY	API 認証情報を示す標準の OpenAI api_key フィールド。	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
ターゲットモデル HTTPS アドレス	ターゲットサービスリクエストアドレスを示す標準の OpenAI base_url フィールド。	http://www.abc.com

自己開発 LLM の統合に関する詳細については、「LLM 標準インターフェイス」をご参照ください。

[保存] をクリックして、インタラクティブメッセージングワークフローの作成を完了します。

ステップ 2: インタラクティブメッセージングエージェントの作成

Intelligent Media Services コンソールにログインし、[エージェントの作成] をクリックします。
基本情報を設定し、インタラクティブメッセージングワークフローをアタッチします。
[インタラクティブメッセージ] アプリケーションを作成します。
説明
インタラクティブメッセージングは、インタラクティブメッセージアプリケーションに依存します。このアプリケーションは通信ブリッジとして機能し、メッセージング機能が正しく動作することを保証します。
[インタラクティブメッセージ] アプリケーションを設定し、[送信] をクリックしてインタラクティブメッセージングエージェントの作成を完了します。

ステップ 3: エージェントの試用

対話型エージェントが作成されたら、トライアル QR コードをスキャンして試用できます。

コンソールで、デモトライアル QR コードを生成します。
DingTalk、WeChat、またはブラウザを使用して QR コードをスキャンします。トライアル URL をブラウザにコピーして H5 デモを体験することもできます。

インタラクティブメッセージングエージェントの統合

統合を開始する前に、次のパラメーターを取得する必要があります。インタラクティブメッセージングエージェントをプロジェクトに統合する方法の詳細については、「インタラクティブメッセージングエージェントの統合」をご参照ください。

リージョン ID: Intelligent Media Services コンソールでワークフローとエージェントが配置されているリージョン。
リージョン名
リージョン ID
中国 (杭州)
cn-hangzhou
中国 (上海)
cn-shanghai
中国 (北京)
cn-beijing
中国 (深セン)
cn-shenzhen
シンガポール
ap-southeast-1
インタラクティブメッセージアプリケーションの AppId と AppKey:
AccessKey ID と AccessKey Secret: 詳細については、「AccessKey の作成」をご参照ください。

リージョン名	リージョン ID
中国 (杭州)	cn-hangzhou
中国 (上海)	cn-shanghai
中国 (北京)	cn-beijing
中国 (深セン)	cn-shenzhen
シンガポール	ap-southeast-1