すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:アプリケーションフローの開発

最終更新日:Jun 23, 2026

LangStudio IDE では、大規模言語モデル (LLM)、Python ノード、およびその他のツールを組み合わせて、アプリケーションフローを構築、デバッグ、最適化します。

クイックスタート

「アプリケーションフローの作成」をご参照ください。

作成方法

  • テンプレートから作成:さまざまなシナリオ向けの事前構築済みテンプレートから AI アプリケーションを迅速に構築します。

  • タイプ別に作成

    • 標準:汎用のアプリケーション開発向けです。 LLM、カスタム Python コード、およびその他のツールを組み合わせて、アプリケーションフローを構築します。

    • 会話型:会話型アプリケーション開発向けです。標準タイプを拡張し、会話履歴管理、入出力、およびダイアログ形式のテストインターフェイスを備えています。

  • OSS からインポート:インポートするアプリケーションフローの ZIP パッケージまたは OSS パスを選択します。 このパスには、アプリケーションフローの flow.dag.yaml ファイルと他のコードファイルを直接含んでいる必要があります

    • LangStudio のアプリケーションフローリストの Actions カラムにある Export 機能を使用してアプリケーションフローをエクスポートし、他のユーザーと共有してインポートできます。

    • Dify DSL ファイルを LangStudio のアプリケーションフロー形式に変換した後、この方法でインポートできます。

環境変数の設定

アプリケーションフローがランタイムで必要となる環境変数を追加できます。システムは実行前にこれらの変数を自動的にロードし、Python ノード、ツールコール、またはカスタムロジックで利用できるようにします。

ユースケース

  • 機密情報の管理:API キー、認証トークン、その他のシークレットをハードコーディングせずに保存します。

  • 設定のパラメータ化:モデルのエンドポイントやタイムアウトなどのランタイムパラメータを柔軟に設定できます。

設定と使用方法

  1. アプリケーションフローエディターで、右上隅にある Settings をクリックして環境変数を追加します。

    image

  2. Python ノードでは、標準 Python の os.environ を使用して、設定済みの環境変数にアクセスできます:

    import os
    
    # 例:API キーの取得
    api_key = os.environ["OPENAI_API_KEY"]

音声インタラクションの設定

アプリケーションフローエディターで、右上隅にある Settings をクリックし、Global Settings タブで音声インタラクションを設定します。

音声テキスト変換 (STT)

STT 機能は、ユーザーの音声入力をテキストに変換し、[Start] ノードの [Chat Input] フィールドに入力します。

image.png

パラメータ

説明

モデル設定

設定済みのモデルサービス接続と ASR モデルを選択します。現在、Paraformer シリーズのモデルがサポートされています。

認識言語

音声認識の言語を設定します。現在、paraformer-v2 モデルのみが認識言語の指定をサポートしています。

音声合成 (TTS)

TTS 機能は、アプリケーションフローの会話の出力を自動的に音声に変換します。

image.png

パラメータ

説明

モデル設定

設定済みのモデルサービス接続と TTS モデルを選択します。現在、CosyVoice シリーズのモデルがサポートされています。

音声設定

合成音声のボイスを選択します。複数のプリセットボイスがサポートされています。

自動再生

有効にすると、会話中に合成音声が自動的に再生されます。

デプロイと API コール

アプリケーションフローを PAI-EAS にデプロイした後、API コールによって音声インタラクションを有効にできます。一般的な API の使用方法については、「アプリケーションフローのデプロイ」をご参照ください。このセクションでは、音声インタラクションに固有の API の変更点について説明します。

音声入力

リクエストボディに、音声ファイルの URL を含む system.audio_input フィールドを追加します (ファイルデータ構造については、「ファイルタイプの入出力」をご参照ください)。システムは音声を自動的にテキストに変換し、対話入力フィールドに設定します。

{
  "question": "",
  "system": {
    "audio_input": {
      "source_uri": "oss://your-bucket.oss-cn-hangzhou.aliyuncs.com/audio/input.wav"
    }
  }
}

音声出力

TTS で合成された音声データを取得するには、<Endpoint>/run エンドポイントを呼び出します。シンプルモードでは音声データは返されません。

フィールド

説明

audio_data

Base64 エンコードされた音声データフラグメントです。クライアントは、再生のためにフラグメントをデコードして連結する必要があります。

tts_metadata

音声メタデータです。フォーマット (pcm)、サンプリングレート (22050 Hz)、チャンネル数 (1)、ビット深度 (16-bit) が含まれます。

ストリーミング応答

TTS 音声は、SSE イベントストリームの TTSOutput イベントによって返されます:

{
  "event": "TTSOutput",
  "audio_data": "<base64-encoded audio data>",
  "tts_metadata": {
    "format": "pcm",
    "sample_rate": 22050,
    "channels": 1,
    "bit_depth": 16
  }
}

非ストリーミング応答

TTS 音声は、JSON 応答の output.tts_audio フィールドとして返されます:

{
  "output": {
    "answer": "xxx",
    "tts_audio": {
      "audio_data": "<base64-encoded full audio data>",
      "tts_metadata": {
        "format": "pcm",
        "sample_rate": 22050,
        "channels": 1,
        "bit_depth": 16
      }
    }
  }
}

事前構築済みコンポーネント

詳細については、「アプリケーションフローノードリファレンス」をご参照ください。

次のステップ

アプリケーションフローを開発およびデバッグした後、アプリケーションフローを評価できます。ビジネス要件を満たしたら、アプリケーションフローを PAI-EAS にデプロイして本番環境で使用できます。