すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Services:音声通話とビデオ通話のクイックスタート

最終更新日:Nov 09, 2025

このトピックでは、音声およびビデオエージェントを迅速に作成する方法について説明します。

サービスの有効化

リアルタイム対話型 AI を使用する前に、次の要件が満たされていることを確認してください:

  • Intelligent Media Services (IMS) のサブスクリプションが IMS Enterprise Standard Edition または Ultimate Edition にアップグレードされていること。サブスクライブしたサービスをアップグレードするには、IMS サブスクリプション ページに移動します。

  • リアルタイム対話型 AI 機能が有効になっていること。この機能を有効にするには、購入ページ に移動します。

ステップ 1: 音声およびビデオワークフローの作成

  1. Intelligent Media Services コンソール にログインし、[ワークフローテンプレートの作成] をクリックします。

  2. 必要に応じて [音声通話][デジタルヒューマン通話][視覚理解通話]、または [ビデオ通話] を選択し、ワークフローノードを設定します。image

    STT 音声認識

    このノードは、音声入力をテキストに変換し、多言語での認識をサポートします。

    image

    • システムプリセット: プリセットのシステムモデルを使用すると、言語モデルの選択、無音期間の設定、カスタムホットワードの設定ができます。

      • 言語モデル: ビジネスシナリオに基づいて、さまざまな言語モデルを選択できます。

      • 無音期間: ユーザーからの音声入力がない場合にエージェントが待機する時間。

      • カスタムホットワード: ホットワードを設定して、ビジネス固有の語彙の認識精度を向上させることができます。詳細については、「音声認識ホットワード」をご参照ください。

      • カスタム禁止用語: 禁止用語を設定すると、音声認識で禁止用語が検出された場合、クライアント側の字幕で自動的にアスタリスク (*) に置き換えられます。詳細については、「カスタム禁止用語」をご参照ください。

    • サードパーティプラグイン: iFLYTEK 音声認識 を選択できます。必須パラメーターを取得するには、iFLYTEK リアルタイム音声認識 ページにアクセスしてください。

    LLM (大規模言語モデル)

    大規模言語モデル (LLM) ノードは、大規模な事前トレーニング済み言語モデルを使用して、音声認識 (STT) ノードからのテキスト入力に基づいて自然言語テキストを理解し、生成します。

    image

    リアルタイム対話型 AI は現在、Qwen (システムプリセット)、Alibaba Cloud Model Studio、Alibaba Tongyi Xingchen、および自己開発モデル (OpenAI 準拠) への接続をサポートしています。

    Alibaba Cloud Model Studio

    Alibaba Cloud Model Studio は、大規模モデルを開発し、アプリケーションを構築するためのワンストッププラットフォームです。[モデルハブ] または [App Center] のいずれかから言語モデルとサービスに接続できます。

    • モデルハブ: Alibaba Cloud Model Studio の モデルスクエア で、要件を満たすモデルを選択し、[詳細の表示] をクリックして ModelId を取得します。[API KEY] をクリックして [API-KEY] を取得します。

    • アプリケーションセンター: まず、Alibaba Cloud Model Studio で エージェントアプリケーションを作成 する必要があります。アプリケーションが作成されたら、AppId を取得します。

      [呼び出し] をクリックして、エージェントアプリケーションインターフェイスを開きます。右上隅にある [API KEY] をクリックして API-KEY を取得します。

    Alibaba Tongyi Xingchen

    Alibaba Tongyi Xingchen を使用すると、独自の個性とスタイルを持つ、高度にパーソナライズされたエージェントを作成できます。デジタルヒューマンのリアルタイム対話型音声機能と組み合わせることで、これらのエージェントはさまざまなシナリオで豊かな対話を行うことができます。

    • ModelId: Alibaba Tongyi Xingchen は現在、xingchen-litexingchen-basexingchen-plusxingchen-plus-v2xingchen-max の 5 つのモデルを提供しています。

    • API-KEY: Xingchen コンソール にアクセスして API KEY を作成し、取得します。

    自己開発 (OpenAI 準拠)

    リアルタイム対話型 AI は、OpenAI 標準に準拠した自己開発の大規模モデルへの接続もサポートしています。

    OpenAI 標準: OpenAI 標準に準拠して接続する場合、次のパラメーターを入力する必要があります:

    名前

    説明

    ModelId

    標準の OpenAI モデルフィールドで、モデル名を示します。

    abc

    API-KEY

    標準の OpenAI api_key フィールドで、API 認証情報を示します。

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    ターゲットモデルの HTTPS アドレス

    標準の OpenAI base_url フィールドで、ターゲットサービスのリクエストアドレスを示します。

    http://www.abc.com

    自己開発 LLM の統合に関する詳細については、「LLM 標準インターフェイス」をご参照ください。

    TTS 音声合成

    このノードは、処理されたテキストを音声に変換し直し、ユーザーがシステムの応答を聞けるようにします。

    image

    • シナリオに合わせて、[プリセットテンプレート][カスタムテンプレート][サードパーティプラグイン] などの音声合成 (TTS) モデルを選択できます。

      • プリセットテンプレート: プリセットテンプレートを選択する際に、音声を設定します。さまざまなスマート音声効果の例については、「スマート音声効果の例」をご参照ください。

      • カスタムテンプレート: 標準プロトコルを使用して、カスタムの大規模モデルをワークフローに追加します。詳細については、「標準 TTS API」をご参照ください。

      • サードパーティプラグイン: 現在、[MiniMax 音声モデル] のみがサポートされています。複数のバージョンが利用可能です。最新バージョンを使用してください。詳細については、「MiniMax 音声モデル」をご参照ください。

    • 音声合成 (TTS) ノードでは、LLM から受信したテキストを音声に変換する前にフィルタリングすることもできます。

      image

    • テキストの正規化: テキスト内の数字、記号、その他の要素を標準フォーマットに変換して、合成音声の品質を向上させます。たとえば、「120°」は「百二十度」に変換されます。

    デジタルヒューマン

    このノードは、処理されたテキストと音声に同期したアクション、表情、口の動きを持つデジタルヒューマンのビデオストリームを生成します。

    image

    デジタルヒューマンノードは現在、[デジタルヒューマンプラグイン] または [Alibaba Lingjing デジタルヒューマン] のいずれかへの接続をサポートしています:

    • [デジタルヒューマンプラグインに接続]:

      • FaceUnity: FaceUnity カスタマーサービスに連絡して FaceUnity 3D デジタルヒューマンサービスを有効化し、AppIdAppKeyAvatarId を取得する必要があります。

    • [Alibaba Lingjing デジタルヒューマンと統合]: サービスを有効化するには、チケットを送信 する必要があります。

    ビデオフレーム抽出

    このノードは、ビデオから単一または複数のイメージフレームを抽出します。

    image

    ビデオコンテンツの理解

    このノードは、ビデオコンテンツに特定の動作が存在するかどうかを検出します。

    image

    MLLM (マルチモーダル大規模言語モデル)

    先行するノードからのデータを使用して、マルチモーダル大規模言語モデル (MLLM) は入力された画像とテキストを理解し、自然言語テキストを生成できます。また、異なるモデルタイプを選択することで、モデルの入力を制御することもできます。

    image

    リアルタイム対話型 AI は現在、Qwen (システムプリセット)、Alibaba Cloud Model Studio、Alibaba Tongyi Xingchen、および自己開発の大規模モデルへの接続をサポートしています。

    Alibaba Cloud Model Studio

    Alibaba Cloud Model Studio は、大規模モデルを開発し、アプリケーションを構築するためのワンストッププラットフォームです。[モデルハブ] または [App Center] のいずれかから言語モデルとサービスに接続できます。

    • モデルハブ: Alibaba Cloud Model Studio の モデルスクエア で、要件を満たすモデルを選択し、[詳細の表示] をクリックして ModelId を取得します。[API-KEY] をクリックして API-KEY を取得します。

    • アプリケーションセンター: まず、Alibaba Cloud Model Studio で エージェントアプリケーションを作成 します。アプリケーションが作成されたら、AppId を取得します。

      重要

      エージェントアプリケーションを作成する際には、マルチモーダル大規模モデル qwen-vl-max または qwen-vl-plus を選択する必要があります。そうしないと、ビデオタイプのエージェントを公開できません。

      [呼び出し] をクリックして、エージェントアプリケーションインターフェイスを開きます。右上隅にある [API KEY] をクリックして API-KEY を取得します。

    Tongyi Xingchen

    Tongyi Xingchen を使用すると、独自の個性とスタイルを持つ、高度にパーソナライズされたエージェントを作成できます。デジタルヒューマンのリアルタイム対話型音声機能と組み合わせることで、これらのエージェントはさまざまなシナリオで豊かな対話を行うことができます。

    • ModelId: Tongyi Xingchen は現在、xingchen-litexingchen-basexingchen-plusxingchen-plus-v2xingchen-max の 5 つのモデルを提供しています。

    • API-KEY: Xingchen コンソール にアクセスして API KEY を作成し、取得します。

    自己開発モデル

    リアルタイム対話型 AI は、OpenAI 標準 に準拠した自己開発の大規模モデルへの接続もサポートしています。

    OpenAI 標準: OpenAI 標準に準拠して接続する場合、次のパラメーターを入力する必要があります:

    パラメーター

    タイプ

    必須

    説明

    ModelId

    String

    はい

    モデル名。このパラメーターは、OpenAI 仕様のモデルフィールドに対応します。

    abc

    API-KEY

    String

    はい

    認証情報。このパラメーターは、OpenAI 仕様の api_key フィールドに対応します。

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    宛先モデルの HTTPS URL

    String

    はい

    サービスリクエスト URL。このパラメーターは、OpenAI 仕様の base_url フィールドに対応します。

    http://www.abc.com

    1 回の呼び出しあたりの最大画像数

    Integer

    はい

    MLLM へのリクエストに含まれる画像の最大数。一部の MLLM がリクエストごとに受信できる画像フレームの最大数は固定されています。これらのモデルに対してこのパラメーターを指定できます。MLLM をリクエストすると、指定された値に基づいてサンプリングのためにビデオからフレームが抽出されます。

    15

    カスタム統合の開発に関する詳細については、「MLLM 標準インターフェイス」をご参照ください。

  3. [保存] をクリックして、音声およびビデオワークフローを作成します。

ステップ 2: 音声およびビデオエージェントの作成

  1. Intelligent Media Services コンソール にログインし、[エージェントの作成] をクリックします。

  2. 基本情報を設定し、音声およびビデオのリアルタイムワークフローをアタッチします。

    1. AI エージェントが実行するための特定の音声およびビデオワークフローをアタッチします。

      image

    2. エージェントを設定する際に、既存の ApsaraVideo Real-time Communication (ARTC) アプリケーションを選択します。ARTC アプリケーションがない場合は、自動作成オプションを選択できます。ApsaraVideo Real-time Communication の詳細については、「ApsaraVideo Real-time Communication の概要」をご参照ください。

      image

      説明

      リアルタイム対話型 AI は ARTC アプリケーションに依存します。ARTC アプリケーションは通信ブリッジとして機能し、対話機能が正しく機能することを保証します。

    3. アタッチされたワークフローが音声通話ワークフローである場合、高度な機能設定でカスタムアバターをアップロードできます。このアバターは音声通話シナリオで表示されます。

      image

  3. [送信] をクリックして、音声およびビデオエージェントを作成します。

ステップ 3: エージェントの試用

対話型エージェントが作成された後、トライアル QR コードをスキャンして試用できます。

  1. コンソール で、デモトライアル QR コードを生成します。

    image

  2. DingTalk、WeChat、またはブラウザを使用して QR コードをスキャンします。トライアル URL をブラウザにコピーして H5 デモを体験することもできます。

    image

音声およびビデオエージェントの統合

統合を開始する前に、次のパラメーターを取得する必要があります。音声およびビデオエージェントをプロジェクトに統合する手順については、「音声およびビデオ通話エージェントの統合」をご参照ください。

  • リージョン ID: Intelligent Media Services コンソールでワークフローとエージェントが配置されているリージョン。

    image

    リージョン名

    リージョン ID

    中国 (杭州)

    cn-hangzhou

    中国 (上海)

    cn-shanghai

    中国 (北京)

    cn-beijing

    中国 (深圳)

    cn-shenzhen

    シンガポール

    ap-southeast-1

  • ARTC アプリケーションの AppIdAppKey

    image

    image

  • AccessKey IDAccessKey Secret: 詳細については、「AccessKey の作成」をご参照ください。