アプリケーションフロー開発 - Platform For AI - Alibaba Cloud ドキュメントセンター

クイックスタート

「アプリケーションフローの作成」をご参照ください。

作成方法

テンプレートから作成：さまざまなシナリオ向けの事前構築済みテンプレートから AI アプリケーションを迅速に構築します。
タイプ別に作成：
- 標準：汎用のアプリケーション開発向けです。 LLM、カスタム Python コード、およびその他のツールを組み合わせて、アプリケーションフローを構築します。
- 会話型：会話型アプリケーション開発向けです。標準タイプを拡張し、会話履歴管理、入出力、およびダイアログ形式のテストインターフェイスを備えています。
OSS からインポート：インポートするアプリケーションフローの ZIP パッケージまたは OSS パスを選択します。 このパスには、アプリケーションフローの flow.dag.yaml ファイルと他のコードファイルを直接含んでいる必要があります。
- LangStudio のアプリケーションフローリストの Actions カラムにある Export 機能を使用してアプリケーションフローをエクスポートし、他のユーザーと共有してインポートできます。
- Dify DSL ファイルを LangStudio のアプリケーションフロー形式に変換した後、この方法でインポートできます。

環境変数の設定

アプリケーションフローがランタイムで必要となる環境変数を追加できます。システムは実行前にこれらの変数を自動的にロードし、Python ノード、ツールコール、またはカスタムロジックで利用できるようにします。

ユースケース

機密情報の管理：API キー、認証トークン、その他のシークレットをハードコーディングせずに保存します。
設定のパラメータ化：モデルのエンドポイントやタイムアウトなどのランタイムパラメータを柔軟に設定できます。

設定と使用方法

アプリケーションフローエディターで、右上隅にある Settings をクリックして環境変数を追加します。
Python ノードでは、標準 Python の os.environ を使用して、設定済みの環境変数にアクセスできます：
```
import os

# 例：API キーの取得
api_key = os.environ["OPENAI_API_KEY"]
```

音声インタラクションの設定

アプリケーションフローエディターで、右上隅にある Settings をクリックし、Global Settings タブで音声インタラクションを設定します。

音声テキスト変換 (STT)

STT 機能は、ユーザーの音声入力をテキストに変換し、[Start] ノードの [Chat Input] フィールドに入力します。

パラメータ	説明
モデル設定	設定済みのモデルサービス接続と ASR モデルを選択します。現在、Paraformer シリーズのモデルがサポートされています。
認識言語	音声認識の言語を設定します。現在、paraformer-v2 モデルのみが認識言語の指定をサポートしています。

音声合成 (TTS)

TTS 機能は、アプリケーションフローの会話の出力を自動的に音声に変換します。

パラメータ	説明
モデル設定	設定済みのモデルサービス接続と TTS モデルを選択します。現在、CosyVoice シリーズのモデルがサポートされています。
音声設定	合成音声のボイスを選択します。複数のプリセットボイスがサポートされています。
自動再生	有効にすると、会話中に合成音声が自動的に再生されます。

デプロイと API コール

アプリケーションフローを PAI-EAS にデプロイした後、API コールによって音声インタラクションを有効にできます。一般的な API の使用方法については、「アプリケーションフローのデプロイ」をご参照ください。このセクションでは、音声インタラクションに固有の API の変更点について説明します。

音声入力

リクエストボディに、音声ファイルの URL を含む system.audio_input フィールドを追加します (ファイルデータ構造については、「ファイルタイプの入出力」をご参照ください)。システムは音声を自動的にテキストに変換し、対話入力フィールドに設定します。

{
  "question": "",
  "system": {
    "audio_input": {
      "source_uri": "oss://your-bucket.oss-cn-hangzhou.aliyuncs.com/audio/input.wav"
    }
  }
}

音声出力

TTS で合成された音声データを取得するには、<Endpoint>/run エンドポイントを呼び出します。シンプルモードでは音声データは返されません。

フィールド	説明
audio_data	Base64 エンコードされた音声データフラグメントです。クライアントは、再生のためにフラグメントをデコードして連結する必要があります。
tts_metadata	音声メタデータです。フォーマット (pcm)、サンプリングレート (22050 Hz)、チャンネル数 (1)、ビット深度 (16-bit) が含まれます。

ストリーミング応答

TTS 音声は、SSE イベントストリームの TTSOutput イベントによって返されます：

{
  "event": "TTSOutput",
  "audio_data": "<base64-encoded audio data>",
  "tts_metadata": {
    "format": "pcm",
    "sample_rate": 22050,
    "channels": 1,
    "bit_depth": 16
  }
}

非ストリーミング応答

TTS 音声は、JSON 応答の output.tts_audio フィールドとして返されます：

{
  "output": {
    "answer": "xxx",
    "tts_audio": {
      "audio_data": "<base64-encoded full audio data>",
      "tts_metadata": {
        "format": "pcm",
        "sample_rate": 22050,
        "channels": 1,
        "bit_depth": 16
      }
    }
  }
}

事前構築済みコンポーネント

詳細については、「アプリケーションフローノードリファレンス」をご参照ください。

次のステップ

アプリケーションフローを開発およびデバッグした後、アプリケーションフローを評価できます。ビジネス要件を満たしたら、アプリケーションフローを PAI-EAS にデプロイして本番環境で使用できます。