PAI Flow は、エンドツーエンドの機械学習プロセス開発機能を提供します。これは、Platform for AI (PAI) の 視覚化モデリング Designer と同じワークフロー機能を提供し、定期的なワークフロースケジュールをサポートします。
制限事項
プロダクトの制限:
PAI Flow は [DataWorks ワークスペース (新バージョン)] のみをサポートします。
PAI Flow は現在、[ソース/ターゲット] ノードと [RAG データ処理] ノードのみをサポートしています。
PAI Flow は サーバーレスリソースグループ のみをサポートします。
リージョンの制限: サポートされているリージョンは、中国 (杭州)、中国 (上海)、中国 (北京)、中国 (ウランチャブ)、中国 (深圳)、中国 (香港)、シンガポール、インドネシア (ジャカルタ)、日本 (東京)、ドイツ (フランクフルト)、米国 (シリコンバレー)、および米国 (バージニア) です。
前提条件
DataWorks Data Studio (新バージョン) ワークスペースと Platform for AI (PAI) ワークスペースを作成済みであること。
ワークスペースを作成する際に、[同名の AI ワークスペースを作成] を選択します。システムは自動的に DataWorks ワークスペースと同じ名前の PAI ワークスペースを作成し、それらをバインドします。
既存のワークスペースで [PAI アルゴリズムタスクのスケジュール] を有効にする場合は、[管理ハブ] で有効にする必要があります。この操作により、DataWorks ワークスペースと同じ名前の PAI ワークスペースが作成されます。
PAI Flow の作成
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ進む] をクリックします。
DataStudio のプロジェクトディレクトリモジュールで、
をクリックし、 を選択して [PAI Flow] オーケストレーションページを作成して開き、新しいノードを作成します。
PAI Flow の開発
[PAI Flow] は、さまざまな視覚化モデリングノードをサポートしています。さまざまなノードタイプに基づいてワークフローを設計し、ノードを開発できます。
[PAI Flow] で、左側から必要なノードを選択し、キャンバスにドラッグします。ノードを手動で接続してワークフローを設計します。
ワークフローの設計が完了したら、ノードをクリックして右側のパネルで設定します。
ノードタイプ
ノード
ノードの説明
ソース/ターゲット
テーブルの読み取りコンポーネントは、MaxCompute テーブルからデータを読み取ります。デフォルトでは、コンポーネントは現在のプロジェクトのテーブルデータを読み取ります。
このコンポーネントは、Object Storage Service
OSS Bucketパスからファイルまたはフォルダを読み取るために使用されます。このコンポーネントは、
OSS、HTTP、およびHDFSからのCSVファイルの読み取りをサポートします。このコンポーネントは、入力データを
MaxComputeに書き込むことをサポートします。RAG データ処理
RAG テキスト解析とチャンク化
入力ディレクトリからテキストファイル (
HTML、PDF、Markdown、Textなど) を読み取って解析し、指定されたブロックサイズ以下の連続したテキストブロックを生成し、指定された出力パスにJSONline形式で保存します。RAG ベクター生成
指定されたディレクトリから、解析およびチャンク化されたすべてのドキュメントファイル (
JSONline形式) をロードし、Embeddingモデルを使用してテキストベクターを生成します。RAG ナレッジベースインデックス同期
入力データをターゲットのナレッジベースインデックスに同期します。
説明ファイルパスを設定する際、パスに変数を含めることができます。例:
https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${variable}/example.csv。変数を設定する際、スケジュールパラメーターを変数として使用して、定期的なスケジューリング中に異なるストレージパスから読み取ったり、書き込んだりすることができます。ノード開発が完了したら、オーケストレーションページの右側のツールバーで [PAI Flow] の スケジューリング設定 を構成し、本番環境に公開した後の定期的なスケジューリングを確保します。
説明スケジューリング設定を構成する際、スケジュールリソースグループは サーバーレスリソースグループ のみをサポートします。
PAI Flow の公開
PAI Flow のデバッグとスケジューリング設定が完了した後、[PAI Flow] ワークフローを送信して公開した後にのみ、ノードはスケジューリング設定に従って定期的に実行されます。
上部のツールバーにある [保存] ボタンをクリックして、[PAI Flow] を保存します。
保存後、上部のツールバーにある
ボタンをクリックして公開パネルを開き、タスクを公開します。[本番環境への公開を開始] をクリックすると、タスクは公開チェックプロセスに従って公開操作を実行します。
その他の操作
PAI Flow が正常に公開された後、公開パネルの [O&M に移動] ボタンをクリックして 定期タスク ページに移動し、PAI Flow のスケジューリングと実行ステータスを表示できます。
DAG グラフでは、PAI Flow を開いた後にのみ内部タスクを表示できます。