メタデータ収集 - DataWorks - Alibaba Cloud ドキュメントセンター

DataWorks のデータマップにおけるメタデータ収集機能を使用すると、さまざまなデータソースのメタデータを一元管理できます。収集されたメタデータはデータマップで可視化されます。このトピックでは、クローラーを作成してメタデータを収集する方法について説明します。

概要

メタデータ収集は、エンタープライズレベルのデータマップを構築し、データ資産を管理するために不可欠です。クローラーを使用して、同じリージョン内の複数のワークスペースにまたがる DataWorks データソース (MaxCompute、Hologres、MySQL、CDH Hive など) から、技術メタデータ (データベース、テーブル、カラム)、データリネージ、パーティション情報を自動的に抽出します。このメタデータは DataWorks のデータマップに集約され、統一されたデータビューを提供します。

メタデータ収集により、以下のことが可能になります：

統一されたデータビューの構築：データサイロを解消し、マルチソースの異種メタデータを一元管理します。
データディスカバリーと検索の実現：データコンシューマーが必要なデータを迅速かつ正確に見つけられるようにします。
フルリンクのリネージ分析：データの発生源と行き先を追跡し、影響分析やトラブルシューティングを容易にします。
データガバナンスの強化：完全なメタデータに基づいて、データ分類、等級付け、アクセス制御、品質モニタリング、ライフサイクル管理を実行します。

課金

デフォルトでは、各収集タスクは 0.25 CU × タスク実行時間 を消費します。詳細については、「リソースグループ料金」をご参照ください。収集が成功するたびに、スケジューリングインスタンスが 1 つ生成されます。詳細については、「スケジューリングインスタンス料金」をご参照ください。

制限事項

データソースがホワイトリストによるアクセス制御を使用している場合、データベースのホワイトリストを設定する必要があります。詳細については、「メタデータ収集のホワイトリスト」をご参照ください。
リージョン間のメタデータ収集は推奨されません。DataWorks とデータソースが同じリージョンにあることを確認してください。リージョンをまたいでメタデータを収集するには、データソースを作成する際にパブリック IP アドレスを使用します。詳細については、「データソース管理」をご参照ください。
MySQL メタデータクローラーは OceanBase データソースをサポートしていません。
SSL が有効になっている AnalyticDB for MySQL データソースでは、メタデータ収集はサポートされていません。

エントリーポイント

DataWorks コンソールにログインします。上部のナビゲーションバーで、対象のリージョンを選択します。左側のナビゲーションウィンドウで、データガバナンス > データマップ を選択します。表示されたページで データマップへ をクリックします。
左側のナビゲーションウィンドウで、をクリックしてメタデータ収集ページに移動します。

組み込みクローラー

組み込みクローラーは事前に設定されており、DataWorks によってほぼリアルタイムで自動的に実行されます。DataWorks と統合されたコアメタデータを収集します。ユーザーが作成する必要はなく、収集範囲を管理するだけです。

重要

データマップで対象のテーブルが見つからない場合は、My Data > My Tools > Refresh Table Metadata に移動して、手動でテーブルを同期してください。

MaxCompute デフォルトクローラー

このクローラーは、アカウント内の MaxCompute プロジェクトからメタデータを収集します。詳細ページで Modify Data Scope を使用してプロジェクトを選択し、Permission Configurations を使用してテナント内でのメタデータの可視性を設定します。

メタデータ収集ページの Built-in セクションで、MaxCompute デフォルトクローラー カードを見つけ、Details をクリックします。
MaxCompute デフォルトクローラーの詳細ページには、Basic Information タブと Data Scope タブが含まれています。
- Basic Information：クローラーの基本属性 (収集タイプやモードなど) を表示します。この情報は読み取り専用です。
- Data Scope：収集する MaxCompute プロジェクトを管理します。
収集範囲の変更：
1. Data Scope をクリックし、Modify Data Scope をクリックします。
2. ダイアログボックスで、収集する MaxCompute プロジェクトを選択または選択解除します。
  重要
  デフォルトの範囲には、現在のテナント配下で、現在のリージョンのワークスペースにバインドされているすべての MaxCompute プロジェクトが含まれます。範囲が変更されると、データマップではその範囲内のメタデータオブジェクトのみが可視になります。選択されていないメタデータは不可視になります。
3. OK をクリックして変更を保存します。
メタデータの可視性の設定：
- Data Scope リストで対象のプロジェクトを見つけ、Permission Configurations 列の Actions をクリックします。
- データガバナンスの要件に基づいて可視性ポリシーを選択します：
  - Public Within Tenant：テナント内のすべてのメンバーがこのプロジェクトのメタデータを検索および表示できます。
  - Only members in the associated workspace can search and view.：特定のワークスペースのメンバーのみがこのプロジェクトのメタデータにアクセスでき、データの分離を保証します。

DLF デフォルトクローラー

重要

DLF メタデータのリアルタイム収集をサポートするには、DLF コンソールで Service Linked Role の AliyunServiceRoleForDataworksOnEmr に Data Reader 権限を付与する必要があります。

DLF デフォルトクローラーは、アカウント内の Data Lake Formation (DLF) からメタデータを収集します。

メタデータ収集ページの Built-in セクションで、DLF デフォルトクローラー カードを見つけ、Details をクリックして基本情報を表示します。
Data Scope タブをクリックして、収集範囲に含まれる DLF カタログのリストと、そのテーブル数を表示します。
デフォルトでは、アクセス可能なすべてのカタログ (DLF および DLF-Legacy バージョンを含む) が収集されます。

カスタムクローラー

カスタムクローラーは、環境やエンジンを横断した統一的なメタデータ管理を提供します。

従来のデータソース向け
Hologres、StarRocks、MySQL、Oracle、CDH Hive などの従来の構造化または半構造化データソース向けのカスタムクローラーをサポートします。システムは物理的なデータベーステーブル構造を解析し、フィールド属性、インデックス、パーティションなどのメタデータを自動的に抽出・同期します。
メタデータ型データソース (Catalog) 向け
Paimon Catalog など、DLF で管理されていない自己宣言型のネイティブなレイクフォーマットメタデータに対して、メタデータ型データソースを直接収集することをサポートします。

カスタムクローラーの作成

メタデータ収集ページのカスタムクローラーリストセクションで、メタデータ収集の作成 をクリックします。
収集タイプの選択：タイプ選択ページで、収集対象のデータソースタイプ (Hologres や StarRocks など) を選択します。
基本情報とリソースグループの設定：
- Basic Configurations：
  - ワークスペースの選択：データソースを含むワークスペースを選択します。
  - Select Data Source：ドロップダウンリストから作成済みの対象データソースを選択します。選択後、システムは自動的にデータソースの詳細を表示します。
  - Name：後で識別できるように、クローラーの名前を入力します。デフォルト名はデータソース名と同じです。
- Resource Group Configuration：
  - Resource Group：収集タスクを実行するリソースグループを選択します。
  - Test Network Connectivity：このステップは重要です。Test Network Connectivity をクリックして、リソースグループがデータソースに正常にアクセスできることを確認します。
    重要
    データソースにホワイトリスト制限があるか確認してください。ホワイトリストによるアクセス制御が有効なメタデータを収集する必要がある場合は、「ネットワーク接続ソリューションの概要」および「ホワイトリストの設定」を参照して、ホワイトリストの権限を設定してください。
    データソースにホワイトリスト制限がない場合は、「ネットワーク接続とリソースグループの操作」を参照してネットワーク接続を設定してください。
    接続テストがエラー backend service call failed: test connectivity failed.not support data type で失敗した場合は、テクニカルサポートに連絡してリソースグループをアップグレードしてください。
メタデータ収集の設定：
- Collection Scope：収集するデータベース (Database/Schema) を定義します。データソースがデータベース単位の場合、対応するデータベースがデフォルトで選択されます。データソース外の追加のデータベースを選択することもできます。
  重要
  - 1 つのデータベースは 1 つのクローラーでのみ設定できます。データベースが選択できない場合、それはすでに別のクローラーによって収集されています。
  - 収集範囲を狭めると、範囲外のメタデータはデータマップで検索できなくなります。
インテリジェント拡張設定と収集計画の設定：
- インテリジェント拡張設定 (ベータ版)：
  - AI 収集説明：有効にすると、メタデータ収集後にシステムが LLM を使用してテーブルとフィールドのビジネス説明を自動的に生成し、メタデータの可読性と使いやすさを大幅に向上させます。収集完了後、データマップのテーブルオブジェクト詳細ページで AI が生成した情報 (テーブルの備考やフィールドの説明など) を表示できます。
- Collection Plan：
  - Trigger Mode：手動または定期を選択します。
    - 手動：クローラーは手動でトリガーされた場合にのみ実行されます。これは、1 回限りまたはオンデマンドの収集に適用されます。
    - 定期：定期タスク (月次、日次、週次、時次など) を設定します。システムは定期的にメタデータを自動更新します。
      分単位の定期タスクを設定するには、時次収集を選択し、すべての分オプションをチェックして 5 分間隔のタスクを実現します。
      重要
      定期収集は本番環境のデータソースでのみサポートされています。
設定の保存：Save または Save and Run をクリックして、クローラーの作成を完了します。

カスタムクローラーの管理

クローラーが作成されると、カスタムリストに表示されます。以下の管理操作を実行できます：

リスト操作：リスト内で、クローラーを直接 Run、Stop、または Delete できます。上部の Filter および Search 機能を使用して、対象のクローラーをすばやく見つけます。
重要
メタデータクローラーを削除すると、収集されたメタデータオブジェクトがデータマップから削除されます。ユーザーはこれらのオブジェクトを検索または表示できなくなります。注意：この操作は元に戻せません。
詳細とログの表示：クローラー名をクリックして詳細を表示します。
- Basic Information：クローラーのすべての設定項目を表示します。
- Data Scope：Modify Data Scope を表示または実行します。
  収集前に表示した場合、テーブル数と最終更新時間は空になります。
  次のデータソースは範囲変更をサポートしていません：EMR Hive、CDH Hive、Lindorm、ElasticSearch、Tablestore (OTS)、MongoDB、および AnalyticDB for MySQL 内の AnalyticDB for Spark。
- Run Logs：各収集タスクの実行履歴を追跡します。開始時刻、期間、ステータス、収集されたデータ量を確認できます。タスクが失敗した場合、View Logs をクリックすることが、問題の特定と解決の重要なエントリーポイントとなります。
手動での収集実行：右上隅の Collect Metadata をクリックして、収集タスクを即座にトリガーします。これを使用して、新しく作成されたテーブルをデータマップですぐに表示できます。

次のステップ

メタデータが収集された後、データマップを使用して次のことができます：

データマップで収集したテーブルを検索し、その詳細、フィールド情報、パーティション、データプレビューを表示します。詳細については、「メタデータの詳細」をご参照ください。
テーブルの上流および下流のリネージ関係を分析して、完全なデータ処理リンクを理解します。詳細については、「リネージの表示」をご参照ください。
データアルバムに資産を追加して、ビジネスの観点からデータを整理および管理します。詳細については、「データアルバム」をご参照ください。

よくある質問

Q：MySQL などのデータベースソースで収集がタイムアウトまたは失敗するのはなぜですか？
A：リソースグループの vSwitch の CIDR ブロック がホワイトリストに追加されていることを確認してください。

収集範囲とタイムリネス

データテーブル

Data Source Type	Collection Mode	収集粒度	更新タイムリネス
Data Source Type	Collection Mode	収集粒度	テーブル/フィールド	Partition	リネージ
MaxCompute	システムデフォルトの自動収集	インスタンス	標準プロジェクト：リアルタイム外部プロジェクト：T+1	中国本土リージョン：リアルタイム海外リージョン：T+1	リアルタイム
Data Lake Formation (DLF)	システムデフォルトの自動収集	インスタンス	リアルタイム	リアルタイム	Serverless Spark、Serverless StarRocks、Serverless Flink エンジンの DLF メタデータのリネージがサポートされています。他のエンジンはサポートされていません。重要 EMR クラスターの場合、EMR_HOOK を有効にする必要があります。
Hologres	手動でクローラーを作成	データベース	スケジュールに依存	サポートされていません	リアルタイム
EMR Hive		インスタンス	スケジュールに依存	スケジュールに依存	リアルタイム重要クラスターに対して EMR_HOOK を有効にする必要があります。
CDH Hive		インスタンス	スケジュールに依存	リアルタイム	リアルタイム
StarRocks		データベース	インスタンスモード：リアルタイム。接続文字列モード：スケジュールに依存。	サポートされていません	リアルタイム重要リネージ収集はインスタンスモードでのみサポートされています。接続文字列モードではリネージを収集できません。
AnalyticDB for MySQL		データベース	スケジュールに依存	サポートされていません	リアルタイム説明 AnalyticDB for MySQL インスタンスのデータリネージ機能を有効にするには、チケットを送信する必要があります。
AnalyticDB for Spark		インスタンス	リアルタイム	サポートされていません	リアルタイム
AnalyticDB for PostgreSQL		データベース	スケジュールに依存	サポートされていません	リアルタイム
Lindorm		インスタンス	スケジュールに依存	サポートされていません	リアルタイム
Tablestore (OTS)		インスタンス	スケジュールに依存	サポートされていません	サポートされていません
MongoDB		インスタンス	スケジュールに依存	サポートされていません	サポートされていません
ElasticSearch		インスタンス	スケジュールに依存	サポートされていません	T+1 更新
Paimon Catalog		カタログ	スケジュールに依存	スケジュールに依存	サポートされていません
その他のデータソースタイプ (MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse、SelectDB など)		データベース	スケジュールに依存	サポートされていません	サポートされていません

説明

AnalyticDB for Spark と AnalyticDB for MySQL は同じメタデータ収集エントリーポイントを使用します。

タスクコード

データマップはコード検索と迅速な特定をサポートしています。以下の表はサポート範囲を説明しています。

コードソース	収集範囲	トリガーメソッド
Data Studio	Data Studio - ノード作成とコード編集	自動収集
Data Studio (Legacy)	Data Studio (Legacy) - ノード作成とコード編集
Data Analysis	Data Analysis - SQL クエリ作成とコード編集
DataService Studio	DataService Studio - API データプッシュサービスの作成

API 資産

データマップは DataService Studio の API メタデータの表示をサポートしています：

API Type	収集範囲	トリガーメソッド
生成 API (コードレス UI)	DataService Studio - コードレス UI による API 作成	自動収集
生成 API (コードエディタ)	DataService Studio - コードエディタによる API 作成
登録 API	DataService Studio - API 登録
サービスオーケストレーション	DataService Studio - サービスオーケストレーションの作成

AI 資産

データマップは AI 資産の表示と管理をサポートし、AI 資産リネージを提供してデータとモデルの起源、使用、進化を追跡します。以下の表は AI 資産のサポート状況を説明しています。

タイプ	収集範囲	トリガーメソッド
データセット	PAI - データセットの作成/データセットの登録 DataWorks - データセットの作成	自動収集
AI モデル	PAI - モデルトレーニングタスク/モデルの登録/モデルサービスのデプロイ
アルゴリズムタスク	PAI - トレーニングタスク/ワークフロータスク/分散トレーニングタスク
モデルサービス	PAI - モデルサービスのデプロイ (EAS デプロイメント)

Workspace

データマップはワークスペースのメタデータの表示をサポートしています：

プロジェクト	Collection Mode	トリガーメソッド
ワークスペース	DataWorks - ワークスペースの作成	自動収集