すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ワークフロー アプリケーションの開発

最終更新日:Mar 01, 2026

LangStudio は、アプリケーションフローの構築、テスト、最適化を行うための直感的かつ効率的な統合開発環境(IDE)です。これらのフローには、大規模言語モデル(LLM)、Python ノード、その他のツールを含めることができます。

はじめに

詳細については、「ワークフロー アプリケーションの作成」をご参照ください。

作成方法

  • テンプレートから作成:さまざまなシナリオ向けのアプリケーションテンプレートを使用して、AI アプリケーションを迅速に構築します。

  • タイプ別に作成

    • 標準:このタイプは一般的なアプリケーション開発をサポートします。大規模言語モデル、カスタム Python コード、その他のツールを使用してアプリケーションフローを構築できます。

    • 対話型:このタイプは対話型アプリケーション開発向けに設計されています。「標準」タイプを拡張し、会話履歴や入出力の管理機能を追加し、ダイアログボックスを使用したテストインターフェイスを提供します。

  • OSS からインポート:アプリケーションフローの ZIP パッケージ、またはアプリケーションフローを含む OSS パスを選択します。このパスには、アプリケーションフローの flow.dag.yaml ファイルおよびその他のコードファイルが直接含まれている必要があります

    • LangStudio のアプリケーションフローリストの [操作] 列にある [エクスポート] 機能を使用してアプリケーションフローをエクスポートし、他のユーザーと共有してインポートおよび利用できます。

    • Dify ドメイン固有言語(DSL)ファイルを LangStudio アプリケーションフロー形式に変換し、この方法でインポートできます。

環境変数の設定

LangStudio では、アプリケーションフローの実行時に必要な環境変数を追加できます。システムはフロー実行前にこれらの変数を自動的に読み込みます。Python ノード、ツール呼び出し、カスタムロジックからこれらの変数にアクセス可能です。

利用シーン

  • 機密情報の管理:API キー、認証トークンなどの機密情報をコード内にハードコードせずに保管します。

  • 設定のパラメーター化:モデルエンドポイントやタイムアウト期間など、実行時パラメーターを柔軟に設定します。

設定と使用方法

  1. アプリケーションフロー編集ページの右上隅にある Settings をクリックして、環境変数を追加します。

    image

  2. Python ノードでは、標準的な Python の os.environ を通じて構成済みの環境変数にアクセスできます。

    import os
    
    # 例:API キーの取得
    api_key = os.environ["OPENAI_API_KEY"]

対話型音声応答の構成

アプリケーションフロー編集ページの右上隅にある Settings をクリックします。Global Settings タブで、対話型音声応答の設定を行います。

音声テキスト変換

音声テキスト変換機能は、ユーザーの音声入力をテキストに変換します。このテキストは、スタートノードで「会話入力」としてマークされたフィールドの入力として使用されます。

image.png

構成パラメーター

説明

モデル設定

構成済みのモデルサービス接続と自動音声認識(ASR)モデルを選択します。現在は Paraformer シリーズのモデルがサポートされています。

言語検出

音声認識の言語を設定します。現在は paraformer-v2 モデルのみが認識言語の指定に対応しています。

音声合成

音声合成(TTS)機能は、ワークフローの会話出力を自動的に音声に合成します。

image.png

構成パラメーター

説明

モデル設定

構成済みのモデルサービス接続と TTS モデルを選択します。現在は CosyVoice シリーズのモデルがサポートされています。

音声設定

合成音声の音声を選択します。さまざまなプリビルド音声がサポートされています。

自動再生

この機能を有効にすると、会話中に合成音声が自動的に再生されます。

デプロイと呼び出し

アプリケーションを Elastic Algorithm Service (EAS) にデプロイします。その後、API 呼び出しを使用して対話型音声応答機能を有効にします。一般的な API 呼び出し方法については、「アプリケーションフローのデプロイ」をご参照ください。本項では、対話型音声応答に関連する差異について説明します。

音声入力

音声ファイルの URL を渡すには、リクエストボディに `system.audio_input` フィールドを追加します。ファイルのデータ構造の詳細については、「ファイルタイプの入力と出力」をご参照ください。システムが音声を自動的にテキストに変換し、会話入力フィールドに入力します。

{
  "question": "",
  "system": {
    "audio_input": {
      "source_uri": "oss://your-bucket.oss-cn-hangzhou.aliyuncs.com/audio/input.wav"
    }
  }
}

音声出力

TTS によって合成された音声データを取得するには、フルモード(<Endpoint>/run エンドポイント)を使用して呼び出します。基本モードでは音声データは返されません。

フィールド

説明

audio_data

Base64 エンコードされた音声データセグメントです。クライアントは、再生のためにセグメントをデコードして連結する必要があります。

tts_metadata

音声メタデータです。フォーマット(pcm)、サンプルレート(22050 Hz)、チャンネル数(1)、ビット深度(16 ビット)が含まれます。

ストリーミング応答

TTS 音声は、Server-Sent Events(SSE)ストリーム内の TTSOutput イベントを通じて返されます。

{
  "event": "TTSOutput",
  "audio_data": "<Base64 エンコードされた音声データ>",
  "tts_metadata": {
    "format": "pcm",
    "sample_rate": 22050,
    "channels": 1,
    "bit_depth": 16
  }
}

非ストリーミング応答

TTS 音声は、JSON 応答内の output.tts_audio フィールドとして含まれます。

{
  "output": {
    "answer": "xxx",
    "tts_audio": {
      "audio_data": "<Base64 エンコードされた完全な音声データ>",
      "tts_metadata": {
        "format": "pcm",
        "sample_rate": 22050,
        "channels": 1,
        "bit_depth": 16
      }
    }
  }
}

事前構築済みコンポーネント

詳細については、「ワークフローノード リファレンス」をご参照ください。

次のステップ

アプリケーションフローを開発およびテストした後は、アプリケーションフローを評価できます。フローがビジネス要件を満たしたら、アプリケーションフローを EAS にデプロイして本番環境で使用できます。