PAI Flow ノードによる ML パイプラインの構築と自動化 - DataWorks

PAI Flow を使用すると、エンドツーエンドの機械学習ワークフローを開発できます。Platform for AI（PAI）の可視化ベースのモデリング機能である Designer と同様のワークフロー機能を提供し、ワークフローを定期的にスケジュール実行することも可能です。

制限事項

プロダクト制限
- PAI Flow は、DataWorks ワークスペース（新バージョン）でのみ利用可能です。
- PAI Flow では、現在 ソース／ターゲット ノードおよび RAG データ処理 ノードのみがサポートされています。
- PAI Flow では、サーバーレスリソースグループのみがサポートされています。
リージョン制限：PAI Flow は、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (ウランチャブ)、中国 (深セン)、中国 (香港)、シンガポール、インドネシア (ジャカルタ)、日本 (東京)、ドイツ (フランクフルト)、米国 (シリコンバレー)、および米国 (バージニア) でご利用いただけます。

前提条件

DataWorks DataStudio（新）ワークスペース および Platform for AI ワークスペース がプロビジョニングされました。

ワークスペースを作成する際は、ワークスペースを作成するをクリックし、「[AI ワークスペースを同じ名前で作成]」をチェックします。この操作により、同じ名前の PAI ワークスペースが自動的に作成およびアタッチされます。
既存のワークスペースに対しては、管理センター から PAI アルゴリズムタスクのスケジュール実行を有効化 機能を有効化できます。この操作により、DataWorks ワークスペースと同じ名前の PAI ワークスペースが自動的に作成されます。

PAI Flow の作成

DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーから対象のリージョンを選択します。左側のナビゲーションウィンドウで、データ開発および運用 > データ開発 を選択します。表示されたページで、ドロップダウンリストから対象のワークスペースを選択し、データ開発へ移動 をクリックします。
Data Studio のプロジェクトフォルダ内にあるアイコンをクリックし、ノードの新規作成 > アルゴリズム > PAI Flow を選択します。これにより、新しい PAI Flow ノードが作成され、PAI Flow オーケストレーションページが開きます。

PAI Flow の開発

PAI Flow では、フロー設計やカスタムノード開発のための多様な可視化モデリングノードを提供しています。

PAI Flow 内で、左側のパレットからノードを選択し、キャンバスにドラッグして接続することで、フローを設計できます。

フロー設計後、右側ペインでノードをクリックして構成を設定します。

ノードタイプ	ノード	説明
ソース／デスティネーション	テーブルの読み取り	「テーブルの読み取り」コンポーネントは、MaxCompute テーブルからデータを読み取ります。デフォルトでは、現在のプロジェクト内のテーブルを読み取ります。
	OSS データの読み取り	このコンポーネントは、Object Storage Service（OSS）`バケット` 内のパスからファイルまたはフォルダを読み取ります。
	CSV ファイルの読み取り	このコンポーネントは、`CSV` ファイル形式のデータを、`OSS`、`HTTP`、および Hadoop 分散ファイルシステム（`HDFS`）から読み取ることをサポートしています。
	テーブルへの書き込み	このコンポーネントは、入力データを `MaxCompute` に書き込みます。
検索拡張生成（RAG）データ処理	RAG テキスト解析および分割	入力ディレクトリ内のテキストファイル（`HTML`、`PDF`、`Markdown`、`Text` など）を読み取り、解析します。指定されたブロックサイズを超えない連続したテキストブロックを生成し、`JSONline` 形式で指定された出力パスに保存します。
	RAG 埋め込みベクトル生成	指定されたディレクトリから、すべての解析・分割済みドキュメントファイル（`JSONline` 形式）を読み込みます。その後、`埋め込み（Embedding）` モデルを使用して、テキストの埋め込みベクトルを生成します。
	RAG ナレッジベースインデックス同期	入力データを宛先のナレッジベースインデックスに同期します。

説明

ファイルパスを構成する際、パス内に変数を含めることができます。例： https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${variable}/example.csv。また、スケジュールパラメーターを変数として利用できます。これにより、定期実行時に異なるストレージパスから読み取り・書き込みを行うことが可能になります。

ノードの開発が完了したら、フローのオーケストレーションページ右側ツールバーから、スケジュール構成 を PAI Flow ノードに対して設定します。これにより、本番環境への公開後に、ノードが定期的にスケジュール実行されるようになります。
説明
スケジュール構成を行う場合、スケジュール用のリソースグループとしてサポートされているのは、サーバーレスリソースグループのみです。

PAI Flow ノードの公開

PAI Flow ノードのテストおよびスケジュール設定が完了したら、PAI Flow ノードをコミット・公開する必要があります。公開後、ノードはスケジュール構成に基づき定期的に実行されます。

PAI Flow ノードを保存するには、上部ツールバーの保存をクリックします。
ノードが保存された後、ツールバーのアイコンをクリックして公開パネルを開きます。詳細については、「タスクの公開」をご参照ください。本番環境への公開 をクリックしてタスクを公開します。

次のステップ

PAI Flow ノードが公開された後、公開パネル内の 運用へ移動 をクリックします。これにより、定期実行タスクページにリダイレクトされ、ノードのスケジュール状態および実行状態を確認できます。

説明

有向非循環グラフ（DAG）では、PAI Flow ノードを開いた後にのみ、内部タスクを確認できます。