すべてのプロダクト
Search
ドキュメントセンター

DataWorks:PAI Flow の設定方法

最終更新日:Nov 09, 2025

PAI Flow は、エンドツーエンドの機械学習プロセス開発機能を提供します。これは、Platform for AI (PAI) の 視覚化モデリング Designer と同じワークフロー機能を提供し、定期的なワークフロースケジュールをサポートします。

制限事項

  • プロダクトの制限:

    • PAI Flow は [DataWorks ワークスペース (新バージョン)] のみをサポートします。

    • PAI Flow は現在、[ソース/ターゲット] ノードと [RAG データ処理] ノードのみをサポートしています。

    • PAI Flow は サーバーレスリソースグループ のみをサポートします。

  • リージョンの制限: サポートされているリージョンは、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (ウランチャブ)、中国 (深圳)、中国 (香港)、シンガポール、インドネシア (ジャカルタ)、日本 (東京)、ドイツ (フランクフルト)、米国 (シリコンバレー)、および米国 (バージニア) です。

前提条件

DataWorks Data Studio (新バージョン) ワークスペースPlatform for AI (PAI) ワークスペースを作成済みであること。

  • ワークスペースを作成する際に、[同名の AI ワークスペースを作成] を選択します。システムは自動的に DataWorks ワークスペースと同じ名前の PAI ワークスペースを作成し、それらをバインドします。

  • 既存のワークスペースで [PAI アルゴリズムタスクのスケジュール] を有効にする場合は、[管理ハブ] で有効にする必要があります。この操作により、DataWorks ワークスペースと同じ名前の PAI ワークスペースが作成されます。

PAI Flow の作成

  1. DataStudio ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発と O&M] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ進む] をクリックします。

  2. DataStudio のプロジェクトディレクトリモジュールで、image をクリックし、[ノードの作成] > [アルゴリズム] > [PAI Flow] を選択して [PAI Flow] オーケストレーションページを作成して開き、新しいノードを作成します。

PAI Flow の開発

[PAI Flow] は、さまざまな視覚化モデリングノードをサポートしています。さまざまなノードタイプに基づいてワークフローを設計し、ノードを開発できます。

  1. [PAI Flow] で、左側から必要なノードを選択し、キャンバスにドラッグします。ノードを手動で接続してワークフローを設計します。

  2. ワークフローの設計が完了したら、ノードをクリックして右側のパネルで設定します。

    ノードタイプ

    ノード

    ノードの説明

    ソース/ターゲット

    テーブルの読み取り

    テーブルの読み取りコンポーネントは、MaxCompute テーブルからデータを読み取ります。デフォルトでは、コンポーネントは現在のプロジェクトのテーブルデータを読み取ります。

    OSS データの読み取り

    このコンポーネントは、Object Storage Service OSS Bucket パスからファイルまたはフォルダを読み取るために使用されます。

    CSV ファイルの読み取り

    このコンポーネントは、OSSHTTP、および HDFS からの CSV ファイルの読み取りをサポートします。

    テーブルへの書き込み

    このコンポーネントは、入力データを MaxCompute に書き込むことをサポートします。

    RAG データ処理

    RAG テキスト解析とチャンク化

    入力ディレクトリからテキストファイル (HTMLPDFMarkdownText など) を読み取って解析し、指定されたブロックサイズ以下の連続したテキストブロックを生成し、指定された出力パスに JSONline 形式で保存します。

    RAG ベクター生成

    指定されたディレクトリから、解析およびチャンク化されたすべてのドキュメントファイル (JSONline 形式) をロードし、Embedding モデルを使用してテキストベクターを生成します。

    RAG ナレッジベースインデックス同期

    入力データをターゲットのナレッジベースインデックスに同期します。

    説明

    ファイルパスを設定する際、パスに変数を含めることができます。例: https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${variable}/example.csv。変数を設定する際、スケジュールパラメーターを変数として使用して、定期的なスケジューリング中に異なるストレージパスから読み取ったり、書き込んだりすることができます。

  3. ノード開発が完了したら、オーケストレーションページの右側のツールバーで [PAI Flow]スケジューリング設定 を構成し、本番環境に公開した後の定期的なスケジューリングを確保します。

    説明

    スケジューリング設定を構成する際、スケジュールリソースグループは サーバーレスリソースグループ のみをサポートします。

PAI Flow の公開

PAI Flow のデバッグとスケジューリング設定が完了した後、[PAI Flow] ワークフローを送信して公開した後にのみ、ノードはスケジューリング設定に従って定期的に実行されます。

  1. 上部のツールバーにある [保存] ボタンをクリックして、[PAI Flow] を保存します。

  2. 保存後、上部のツールバーにある image ボタンをクリックして公開パネルを開き、タスクを公開します。[本番環境への公開を開始] をクリックすると、タスクは公開チェックプロセスに従って公開操作を実行します。

その他の操作

PAI Flow が正常に公開された後、公開パネルの [O&M に移動] ボタンをクリックして 定期タスク ページに移動し、PAI Flow のスケジューリングと実行ステータスを表示できます。

説明

DAG グラフでは、PAI Flow を開いた後にのみ内部タスクを表示できます。