DataWorks データマップは、統一されたメタデータハブを通じて AI 資産のトポロジー可視化とフルライフサイクル管理を提供し、資産ガバナンスの効率を向上させます。このトピックでは、データマップで AI 資産を表示する方法について説明します。
背景情報
データマップは、PAI の AI 資産からメタデータを統合し、コアとなる AI 資産のグローバルな検索と管理をサポートします。統一されたインターフェイスにより、これらのリソースを効率的に検出し、管理し、リネージサービスを使用してデータとモデルの起源、使用状況、進化を追跡できます。
AI 資産リネージサービスは、データとモデルのライフサイクルを直感的に追跡する方法を提供し、AI 資産の管理と最適化に役立ちます。各 AI 資産オブジェクトの詳細ページには、そのリネージ情報を表示および分析するためのエントリーポイントが用意されています。
例えば、典型的な AI 資産リネージグラフは、Object Storage Service (OSS) のストレージパスなどの入力ファイルや、MaxCompute テーブルなどのデータセットから、モデルギャラリーでの PAI モデルトレーニングタスクを経て、モデルアダプターファイルやラベル付きデータセットファイルなどの出力ファイル、AI モデル、オンラインモデルサービスに至るまでの完全な連鎖を示します。
AI 資産リネージサービスの主なユースケースは次のとおりです:
AI 資産ガバナンス:詳細な資産リネージ情報は、AI 資産の起源と使用状況を理解するのに役立ちます。これにより、データとモデルの品質が向上するだけでなく、AI の実践がコンプライアンス要件を満たしていることを保証し、より正確なデータ管理と意思決定をサポートします。
モデルのトレーサビリティ:責任ある AI の文脈において、AI モデルの透明性を維持することは非常に重要です。AI 資産リネージサービスを使用すると、モデルトレーニングで使用されたデータセット、特徴量エンジニアリングのメソッド、およびパラメータチューニングのプロセスを追跡できます。このトレーサビリティは、規制要件への対応、実験結果の検証、およびモデル監査の実施に不可欠です。
トラブルシューティングと最適化:AI サービスでパフォーマンスの問題が発生した場合、資産リネージ情報が根本原因を迅速に特定するのに役立ちます。例えば、モデルの予測精度が急に低下した場合、原因は上流のデータ処理の変更にある可能性があります。リネージグラフを使用すると、これらの問題を迅速に特定し、解決できます。
リソース使用率の向上:タスク間の依存関係を理解することで、コンピューティングリソースをより効果的に割り当て、冗長な計算を回避し、コストを削減できます。大規模な実験では、リネージ情報を通じてタスクとデータの依存関係を理解することで、どのタスクを並行して実行できるかを特定し、より効率的なリソースの使用と処理を可能にします。
コラボレーション効率の向上:大規模な組織では、複数のチームが同じインフラストラクチャを研究のために共有することがあります。明確なタスクリネージ情報は、チーム間のコラボレーションを促進し、イノベーションプロセスを加速させます。
前提条件
新しいバージョンの DataStudio 用のワークスペースを作成し、次のいずれかのエディションを選択する必要があります:
PAI ワークスペースを作成している場合は、対応するタイプの AI 資産を検索して表示できます。ワークスペースを作成する際には、Paiアルゴリズムタスクのスケジューリング を選択する必要があります。
DataWorks Standard Edition:標準の AI 資産リネージサービスを使用するには、DataWorks Standard Edition を有効化する必要があります。
DataWorks Professional Edition:Deep Learning Containers (DLC) のモデルトレーニングタスクとワークフロータスクのリネージレポート機能が必要な場合は、DataWorks Professional Edition を有効化する必要があります。
サポートされている AI 資産
DataWorks では、データマップで次の AI 資産のメタデータ詳細を検索および表示できます:
AI 資産の収集
ワークスペースで PAI サービスを有効にすると、データマップは AI ワークスペースから AI 資産メタデータを自動的に収集します。
AI 資産の検索
検索機能を使用すると、現在のワークスペース内のすべての AI 資産の基本情報とリネージを表示できます。
DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウで をクリックします。表示されたページで、入力 データマップ をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして Search ページに移動します。左側の Type セクションで、表示したい AI 資産タイプ を選択し、検索ボックスにキーワードを入力して対応する AI 資産情報を検索します。
AI 資産リネージの表示
データマップの検索ページでは、AI 資産のリネージを表示し、PAI コンソールに移動してその詳細を表示できます。
データマップのデータセットリネージビューでは、AI 資産のすべてのバージョンの集約されたリネージ情報が提供されます。集約されたリネージは、複数のバージョンの情報を組み合わせたもので、特定のバージョンまたはすべてのバージョンのリネージを表示できます。
データセットのリネージ
リネージの生成とレポート
次の方法でデータセットを作成または操作すると、システムは自動的にリネージを生成してレポートします:
ストレージパスの登録
ストレージパスをデータセットとして登録すると、システムは自動的に次の構造でリネージを生成してレポートします:
Data Source | 説明 |
OSS からデータセットを登録すると、システムは OSS からデータセットへのリネージを生成します。 | |
|
データテーブルの登録
MaxCompute テーブルからデータセットを登録すると、システムは MaxCompute テーブルからデータセットへのリネージを生成します。リネージは次の構造を持ちます:
例えば、複数の SQL タスクを実行して MaxCompute テーブルを生成し、そのテーブルを PAI データセットとして登録した場合、データセットのリネージは、テーブルの作成に使用されたすべての SQL タスクまで遡ります。
データセットのアノテーション
iTAG でデータセットにアノテーションを付けると、データアノテーションタスクが作成された後、システムは自動的に次のリネージ情報をレポートします。
データセットリネージの表示
次のエントリーポイントからデータセットのリネージを表示できます。
エントリーポイント 1:データマップ
データマップでデータセットのリネージを表示できます。そのためには、次の手順を実行します:
データセットリストページに移動します。
DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウで をクリックします。表示されたページで、入力 データマップ をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして Search ページに移動します。左側のTypeセクションでDatasetを選択し、Filter ConditionsセクションでData Source Typeとワークスペースを選択して、表示したいデータセットのリストを取得します。
データセットのリネージを表示します。
データセットリストで、対象のデータセットを見つけ、[操作] 列の View Lineage をクリックしてそのリネージを表示します。
リネージ詳細ページでは、関連する上流の OSS ファイルノードが左側に表示され、現在のデータセットの中央ノードとそのバージョンが右側でオレンジ色にハイライトされます。
データセットのリネージ詳細ページでは、次の操作を実行できます:
Lineage Time Range:エリア ① で、時間範囲を選択して対応するデータセットのリネージを表示します。
データセットVers.:エリア ② で、データセットのバージョンを切り替えて、対応するバージョンのリネージを表示します。
その他の操作:データセットを右クリックし、View Details を選択して PAI コンソールに移動し、データセットの詳細を表示するか、View Lineage を選択します。
エントリーポイント 2:PAI
PAI では、データセットの特定のバージョンのリネージをその詳細セクションで表示できます。そのためには、次の手順を実行します:
PAI コンソールにログインします。対象のリージョンに切り替えた後、左側のナビゲーションウィンドウで Workspaces を選択し、対象のワークスペース名をクリックしてワークスペースに入ります。
左側のナビゲーションウィンドウで、 を選択します。
Custom Dataset タブの ベースデータセット で、作成したデータセットの名前を見つけます。
データセット名をクリックします。特定のバージョンの詳細セクションで、View Lineage をクリックして PAI の Bloodline analysis ページに移動し、現在のバージョンのデータセットのリネージを表示します。
説明PAI のリネージ分析ページで、リネージパス内の任意のノードを右クリックし、View Lineage を選択してデータマップに移動し、そのノードの上流および下流のリネージ情報を表示します。
AI モデルのリネージ
リネージの生成とレポート
次の方法で AI モデルを作成または操作すると、システムは自動的にリネージを生成してレポートします:
モデルトレーニング
モデルギャラリーでサブミットされたモデルトレーニングタスクが正常に実行されると、システムは自動的に次のリネージ情報を生成してレポートします。
Register Model
モデル管理ページでモデルを登録すると、システムは自動的に次のリネージ情報をレポートします。
サービスデプロイメント
登録されたモデルを Elastic Algorithm Service (EAS) にデプロイすると、システムは自動的に次のリネージ情報をレポートします。
AI モデルリネージの表示
次のエントリーポイントから AI モデルのリネージを表示できます。
エントリーポイント 1:データマップ
データマップで AI モデルのリネージを表示できます。そのためには、次の手順を実行します:
AI モデルリストページに移動します。
DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウで をクリックします。表示されたページで、入力 データマップ をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして Search ページに移動します。左側の Type セクションで、AI Model を選択します。Filter Conditions セクションで、ワークスペース を選択して、表示したい AI モデルのリストを取得します。
AI モデルのリネージを表示します。
AI モデルリストで、対象の AI モデルを見つけ、[操作] 列の View Lineage をクリックしてそのリネージを表示します。
AI モデルのリネージ詳細ページでは、次の操作を実行できます:
Lineage Time Range:エリア ① で、時間範囲を選択して対応する AI モデルのリネージを表示します。
AI ModelVers.:エリア ② で、AI モデルのバージョンを切り替えて、対応するバージョンのリネージを表示します。
その他の操作:AI モデルを右クリックし、View Details を選択して PAI コンソールに移動し、AI モデルの詳細を表示するか、View Lineage を選択します。
エントリーポイント 2:PAI
PAI では、AI モデルの特定のバージョンのリネージをその詳細セクションで表示できます。そのためには、次の手順を実行します:
PAI コンソールにログインします。対象のリージョンに切り替えた後、左側のナビゲーションウィンドウで Workspaces を選択し、対象のワークスペース名をクリックしてワークスペースに入ります。
左側のナビゲーションウィンドウで、 を選択します。
Model ページで、登録したモデルを見つけます。
最新のバージョン番号をクリックして、Model Version 情報ページに移動します。
Version Overview セクションで、View Lineage をクリックして PAI の Bloodline analysis ページに移動し、現在のバージョンの AI モデルのリネージを表示します。
説明PAI のリネージ分析ページで、リネージパス内の任意のノードを右クリックし、View Lineage を選択してデータマップに移動し、そのノードの上流および下流のリネージ情報を表示します。
アルゴリズムタスクのリネージ
リネージの生成とレポート
関連するタスクを次の方法で実行すると、システムは自動的にリネージを生成してレポートします。
DLC でサブミットされたタスクについては、SDK をインポートし、実際のタスクに基づいて入力と出力を設定することで、リネージ情報を手動でレポートする必要があります。この方法は、高い技術スキルと成熟したビジネスシナリオを持つユーザーに適しています。そうでない場合、リネージの精度が影響を受ける可能性があります。この機能を使用する必要がある場合は、ビジネス担当者に連絡して、アカウントを許可リストに追加してください。詳細については、「モデルトレーニングタスク」をご参照ください。
方法 1:Training Task (アルゴリズムコンポーネントジョブ) の実行
モデルギャラリーでサブミットされたモデルトレーニングタスクが正常に実行されると、システムは自動的に次のリネージ情報を生成してレポートします。
Workflow Task
PAI で作成されたワークフロータスクが正常に実行されると、入力テーブルまたはストレージパス、出力モデルまたはデータセット、および PAIFlow タスクの間にリネージが生成されます。
システムは、次の方法で実行される PAI ワークフロータスクのリネージを自動的に収集してレポートします:
PAIFlow OpenAPI を使用してサブミットされたタスク。詳細については、「API 概要」をご参照ください。
Designer で手動で実行されるタスク。詳細については、「モデルの構築とデバッグ」をご参照ください。
DataWorks のオフラインスケジューリングを使用して定期的に実行されるタスク。詳細については、「DataWorks を使用した Designer ワークフローのオフラインスケジューリング」をご参照ください。
分散トレーニングタスク
分散トレーニングタスクを作成して実行すると、入力テーブルまたはストレージパス、出力モデルまたはデータセット、および DLC タスクの間にリネージが生成されます。DLC でサブミットされたタスクのリネージ情報は手動でレポートできます。
この方法は、高い技術スキルと成熟したビジネスシナリオを持つユーザーに適しています。そうでない場合、リネージの精度が影響を受ける可能性があります。
アルゴリズムタスクリネージの表示
次のエントリーポイントからアルゴリズムタスクのリネージを表示できます。
エントリーポイント 1:データマップ
データマップのアルゴリズムタスクリネージ機能を使用すると、タスクのリネージを表示できます。そのためには、次の手順を実行します:
アルゴリズムタスクリストページに移動します。
DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウで をクリックします。表示されたページで、入力 データマップ をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして Search ページに移動します。左側の Type セクションで、Algorithm Task を選択します。Filter Conditions セクションで、ワークスペース を選択して、表示したいアルゴリズムタスクのリストを取得します。
アルゴリズムタスクのリネージを表示します。
アルゴリズムタスクリストで、対象のアルゴリズムタスクを見つけ、[操作] 列の View Lineage をクリックしてそのリネージを表示します。
アルゴリズムタスクのリネージ詳細ページでは、次の操作を実行できます:
Lineage Time Range:時間範囲を選択して、対応するアルゴリズムタスクのリネージを表示します。
その他の操作:アルゴリズムタスクを右クリックし、View Details を選択して PAI コンソールに移動し、アルゴリズムタスクの詳細を表示するか、View Lineage を選択します。
エントリーポイント 2:PAI
PAI では、アルゴリズムタスクのリネージをその基本情報セクションで表示できます。そのためには、次の手順を実行します:
PAI コンソールにログインします。対象のリージョンに切り替えた後、左側のナビゲーションウィンドウで Workspaces を選択し、対象のワークスペース名をクリックしてワークスペースに入ります。
左側のナビゲーションウィンドウで、 を選択します。
Tasks ページで、作成したアルゴリズムタスクが含まれるタブを見つけます:分散タスク (DLC)、アルゴリズムコンポーネントタスク、または Workflow Task。
タスク名をクリックして、タスク詳細ページに移動します。
Basic Information セクションで、View Lineage をクリックして PAI の Bloodline analysis ページに移動し、アルゴリズムタスクのリネージを表示します。
説明PAI のリネージ分析ページで、リネージパス内の任意のノードを右クリックし、View Lineage を選択してデータマップに移動し、そのノードの上流および下流のリネージ情報を表示します。
モデルサービスのリネージ
リネージの生成とレポート
登録されたモデルを EAS にデプロイすると、システムは自動的にモデルとモデルサービスの間にリネージを生成してレポートします。
モデルサービスリネージの表示
次のエントリーポイントからモデルサービスのリネージを表示できます。
エントリーポイント 1:データマップ
データマップのモデルサービスリネージ機能を使用すると、モデルサービスのリネージを表示できます。そのためには、次の手順を実行します:
モデルサービスリストページに移動します。
DataWorks コンソールにログインします。 対象のリージョンで、左側のナビゲーションウィンドウのをクリックします。 表示されたページで、入力 データマップをクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして Search ページに移動します。左側の Type セクションで、Model Service を選択します。Filter Conditions セクションで、タスクの Status と Resource Group Name を選択して、表示したいモデルサービスのリストを取得します。
モデルサービスのリネージを表示します。
モデルサービスリストで、対象のモデルサービスを見つけ、[操作] 列の View Lineage をクリックしてそのリネージを表示します。
モデルサービスのリネージ詳細ページでは、次の操作を実行できます:
Lineage Time Range:時間範囲を選択して、対応するモデルサービスのリネージを表示します。
その他の操作:モデルサービスを右クリックし、View Details を選択して PAI コンソールに移動し、モデルサービスの詳細を表示するか、View Lineage を選択します。
エントリーポイント 2:PAI
PAI では、モデルサービスのリネージをその基本情報セクションで表示できます。そのためには、次の手順を実行します:
PAI コンソールにログインします。対象のリージョンに切り替えた後、左側のナビゲーションウィンドウで Workspaces を選択し、対象のワークスペース名をクリックしてワークスペースに入ります。
左側のナビゲーションウィンドウで、 を選択します。
モデルオンラインサービス (EAS) ページで、推論サービス タブに移動します。
タスク名をクリックして、タスク概要ページに移動します。
Basic Information セクションで、View Lineage をクリックして PAI の Bloodline analysis ページに移動し、モデルサービスのリネージを表示します。
説明PAI のリネージ分析ページで、リネージパス内の任意のノードを右クリックし、View Lineage を選択してデータマップに移動し、そのノードの上流および下流のリネージ情報を表示します。