LangStudio IDE では、大規模言語モデル (LLM)、Python ノード、およびその他のツールを組み合わせて、アプリケーションフローを構築、デバッグ、最適化します。
クイックスタート
「アプリケーションフローの作成」をご参照ください。
作成方法
-
テンプレートから作成:さまざまなシナリオ向けの事前構築済みテンプレートから AI アプリケーションを迅速に構築します。
-
タイプ別に作成:
-
標準:汎用のアプリケーション開発向けです。 LLM、カスタム Python コード、およびその他のツールを組み合わせて、アプリケーションフローを構築します。
-
会話型:会話型アプリケーション開発向けです。標準タイプを拡張し、会話履歴管理、入出力、およびダイアログ形式のテストインターフェイスを備えています。
-
-
OSS からインポート:インポートするアプリケーションフローの ZIP パッケージまたは OSS パスを選択します。 このパスには、アプリケーションフローの flow.dag.yaml ファイルと他のコードファイルを直接含んでいる必要があります。
-
LangStudio のアプリケーションフローリストの Actions カラムにある Export 機能を使用してアプリケーションフローをエクスポートし、他のユーザーと共有してインポートできます。
-
Dify DSL ファイルを LangStudio のアプリケーションフロー形式に変換した後、この方法でインポートできます。
-
環境変数の設定
アプリケーションフローがランタイムで必要となる環境変数を追加できます。システムは実行前にこれらの変数を自動的にロードし、Python ノード、ツールコール、またはカスタムロジックで利用できるようにします。
ユースケース
-
機密情報の管理:API キー、認証トークン、その他のシークレットをハードコーディングせずに保存します。
-
設定のパラメータ化:モデルのエンドポイントやタイムアウトなどのランタイムパラメータを柔軟に設定できます。
設定と使用方法
-
アプリケーションフローエディターで、右上隅にある Settings をクリックして環境変数を追加します。

-
Python ノードでは、標準 Python の
os.environを使用して、設定済みの環境変数にアクセスできます:import os # 例:API キーの取得 api_key = os.environ["OPENAI_API_KEY"]
音声インタラクションの設定
アプリケーションフローエディターで、右上隅にある Settings をクリックし、Global Settings タブで音声インタラクションを設定します。
音声テキスト変換 (STT)
STT 機能は、ユーザーの音声入力をテキストに変換し、[Start] ノードの [Chat Input] フィールドに入力します。
|
パラメータ |
説明 |
|
モデル設定 |
設定済みのモデルサービス接続と ASR モデルを選択します。現在、Paraformer シリーズのモデルがサポートされています。 |
|
認識言語 |
音声認識の言語を設定します。現在、paraformer-v2 モデルのみが認識言語の指定をサポートしています。 |
音声合成 (TTS)
TTS 機能は、アプリケーションフローの会話の出力を自動的に音声に変換します。

|
パラメータ |
説明 |
|
モデル設定 |
設定済みのモデルサービス接続と TTS モデルを選択します。現在、CosyVoice シリーズのモデルがサポートされています。 |
|
音声設定 |
合成音声のボイスを選択します。複数のプリセットボイスがサポートされています。 |
|
自動再生 |
有効にすると、会話中に合成音声が自動的に再生されます。 |
デプロイと API コール
アプリケーションフローを PAI-EAS にデプロイした後、API コールによって音声インタラクションを有効にできます。一般的な API の使用方法については、「アプリケーションフローのデプロイ」をご参照ください。このセクションでは、音声インタラクションに固有の API の変更点について説明します。
音声入力
リクエストボディに、音声ファイルの URL を含む system.audio_input フィールドを追加します (ファイルデータ構造については、「ファイルタイプの入出力」をご参照ください)。システムは音声を自動的にテキストに変換し、対話入力フィールドに設定します。
{
"question": "",
"system": {
"audio_input": {
"source_uri": "oss://your-bucket.oss-cn-hangzhou.aliyuncs.com/audio/input.wav"
}
}
}
音声出力
TTS で合成された音声データを取得するには、<Endpoint>/run エンドポイントを呼び出します。シンプルモードでは音声データは返されません。
|
フィールド |
説明 |
|
audio_data |
Base64 エンコードされた音声データフラグメントです。クライアントは、再生のためにフラグメントをデコードして連結する必要があります。 |
|
tts_metadata |
音声メタデータです。フォーマット (pcm)、サンプリングレート (22050 Hz)、チャンネル数 (1)、ビット深度 (16-bit) が含まれます。 |
ストリーミング応答
TTS 音声は、SSE イベントストリームの TTSOutput イベントによって返されます:
{
"event": "TTSOutput",
"audio_data": "<base64-encoded audio data>",
"tts_metadata": {
"format": "pcm",
"sample_rate": 22050,
"channels": 1,
"bit_depth": 16
}
}
非ストリーミング応答
TTS 音声は、JSON 応答の output.tts_audio フィールドとして返されます:
{
"output": {
"answer": "xxx",
"tts_audio": {
"audio_data": "<base64-encoded full audio data>",
"tts_metadata": {
"format": "pcm",
"sample_rate": 22050,
"channels": 1,
"bit_depth": 16
}
}
}
}
事前構築済みコンポーネント
詳細については、「アプリケーションフローノードリファレンス」をご参照ください。
次のステップ
アプリケーションフローを開発およびデバッグした後、アプリケーションフローを評価できます。ビジネス要件を満たしたら、アプリケーションフローを PAI-EAS にデプロイして本番環境で使用できます。