DataWorks にさまざまなデータソースからメタデータを収集するためのコレクターを作成する方法 - DataWorks

DataWorks データマップは Metadata Collection 機能を提供します。この機能により、さまざまな DataWorks データソースのメタデータを一元的に集約・管理できます。データマップでは、すべてのソースから集約されたメタデータを表示できます。このトピックでは、さまざまなデータソースからメタデータを収集し、DataWorks に集約するクローラーを作成する方法について説明します。

概要

メタデータ収集は、エンタープライズレベルのデータマップを構築し、統一されたデータ資産管理を実現するためのコア機能です。クローラーは、同一リージョン内の異なるワークスペースに散在する DataWorks データソース (MaxCompute、Hologres、MySQL、CDH Hive など) から、技術メタデータ (データベース、テーブル、カラムなど)、データリネージ、パーティション情報を自動的に抽出し、この情報を DataWorks データマップに集約して、統一されたデータビューを作成します。

メタデータ収集により、以下のことが可能になります。

統一されたデータビューの構築：複数の異種ソースからのメタデータを一元管理することで、データサイロを解消します。
データディスカバリーと検索の実現：データコンシューマーが必要なデータを迅速かつ正確に見つけられるようにします。
エンドツーエンドのデータリネージ分析の実現：データの発生源と流れを明確に追跡し、影響分析やトラブルシューティングを容易にします。
データガバナンスの強化：包括的なメタデータに基づいて、データ分類と等級付け、アクセス制御、品質モニタリング、ライフサイクル管理を実装します。

課金

デフォルトでは、各収集タスクは 0.25 CU にタスク実行時間を乗じた量を消費し、リソースグループ料金が発生します。収集が成功するたびにスケジューリングインスタンスが生成され、スケジューリングインスタンス料金が発生します。

制限事項

データソースがアクセス制御にホワイトリストを使用している場合は、事前に設定する必要があります。詳細については、「メタデータ収集のホワイトリスト」をご参照ください。
DataWorks のデプロイメントとデータソースは、同じリージョンにある必要があります。リージョンをまたいでメタデータを収集する必要がある場合は、データソースを作成する際にパブリックエンドポイントを使用してください。詳細については、「データソース管理」をご参照ください。
SSL が有効になっている AnalyticDB for MySQL データソースのメタデータ収集はサポートされていません。

エントリポイント

DataWorks コンソールにログインします。対象のリージョンで、左側のナビゲーションウィンドウでデータガバナンス > データマップをクリックします。表示されたページで、入力 データマップをクリックします。
左側のナビゲーションウィンドウで、アイコンをクリックしてメタデータ収集ページを開きます。

組み込みクローラー

組み込みクローラーは、DataWorks プラットフォームによって事前設定され、自動的に実行 (ほぼリアルタイム) されます。主に、DataWorks と深く統合されたソースからコアメタデータを収集するために使用されます。作成する必要はなく、簡単な範囲管理を行うだけです。

重要

データマップで対象のテーブルが見つからない場合は、My Data > My Tools > Refresh Table Metadata に移動して、関連テーブルを手動で同期してください。

MaxCompute デフォルトクローラー

このクローラーは、ご利用のアカウント配下にある MaxCompute プロジェクトからメタデータを収集します。詳細ページに移動し、Modify Data Scope をクリックして収集対象のプロジェクトを選択し、Permission Configurations をクリックしてテナント内でのメタデータの可視性を設定できます。

メタデータ収集ページの Built-in セクションで、MaxCompute デフォルトクローラーのカードを見つけ、Details をクリックします。
MaxCompute デフォルトクローラーの詳細ページには、Basic Information と Data Scope の 2 つのタブがあります。
- Basic Information：収集タイプや収集方法など、クローラーの基本プロパティを表示します。この情報は読み取り専用です。
- Data Scope：このクローラーが収集する MaxCompute プロジェクトを管理します。
収集範囲の変更：
1. Data Scope タブに切り替え、Modify Data Scope をクリックします。
2. 表示されるダイアログボックスで、収集したい MaxCompute プロジェクトを選択または選択解除します。
  
  重要
  デフォルトでは、現在のテナント配下の現在のリージョンにあるワークスペースに関連付けられているすべての MaxCompute プロジェクトが範囲に含まれます。データ範囲を変更すると、データマップで収集されたメタデータオブジェクトは現在のデータ範囲と一致します。選択されていないプロジェクトのメタデータは表示されません。
3. OK をクリックして変更を保存します。
メタデータの可視性の設定：
- Data Scope リストで対象のプロジェクトを見つけ、Actions 列の Permission Configurations をクリックします。
- データガバナンスの要件に基づいて可視性ポリシーを選択します。
  - Public Within Tenant：テナント内のすべてのメンバーがこのプロジェクトのメタデータを検索・閲覧できます。
  - Only members in the associated workspace can search and view.：特定のワークスペースのメンバーのみがこのプロジェクトのメタデータにアクセスでき、データの隔離が確保されます。

DLF デフォルトクローラー

重要

Data Lake Formation (DLF) メタデータのリアルタイム収集を有効にするには、DLF コンソールでサービスリンクロール AliyunServiceRoleForDataworksOnEmr に Data Reader 権限を付与する必要があります。

DLF デフォルトクローラーは、ご利用のアカウント配下にある Data Lake Formation (DLF) からメタデータを収集します。

メタデータ収集ページの Built-in セクションで、DLF デフォルトクローラーのカードを見つけ、Details をクリックして基本情報を表示します。
Data Scope タブに切り替えて、収集範囲に含まれる DLF カタログのリストと各カタログのテーブル数を表示します。

デフォルトでは、アクセス可能なすべてのカタログ (DLF および DLF-Legacy バージョンを含む) が収集されます。

カスタムクローラー

カスタムクローラーは、環境やエンジンをまたいで統一されたメタデータ管理を提供するために設計されています。

標準データソースの場合

Hologres、StarRocks、MySQL、Oracle、CDH Hive などの従来の構造化または半構造化データソースに対してカスタムクローラーを作成できます。収集タスクを設定することで、システムはソースの物理スキーマを深く解析し、カラム属性、インデックス、パーティションなどのメタデータを自動的に抽出・同期できます。
メタデータ型データソース (Catalog) の場合

Paimon Catalog のように、DLF によって管理されていない自己宣言型のネイティブなレイクフォーマットメタデータを持つメタデータ型データソースについても、直接収集するためのクローラーを作成できます。

Create Custom Crawler

メタデータ収集ページのカスタムクローラーリストセクションで、[メタデータ収集の作成] をクリックします。
収集タイプの選択：タイプ選択ページで、Hologres や StarRocks など、収集する対象のデータソースタイプを選択します。
基本設定とリソースグループの設定：
- Basic Configurations：
  - ワークスペースの選択：収集するデータソースが存在するワークスペースを選択します。
  - Select Data Source：ドロップダウンリストから対象のデータソースを選択します。選択後、システムは自動的にデータソースの詳細情報を表示します。
  - Name：後で識別できるようにクローラーの名前を入力します。デフォルトでは、データソース名と同じです。
- Resource Group Configuration：
  - Resource Group：収集タスクを実行するリソースグループを選択します。
  - Test Network Connectivity：このステップは重要です。Test Network Connectivity をクリックして、リソースグループがデータソースに正常にアクセスできることを確認してください。
    重要
    
    データソースでホワイトリストが有効になっているか確認してください。ホワイトリストベースのアクセス制御を持つデータソースからメタデータを収集する必要がある場合は、「概要」および「ホワイトリストの設定」を参照して、ホワイトリストの権限を設定してください。
    
    データソースでホワイトリストが有効になっていない場合は、「リソースグループの操作とネットワーク接続」を参照して、データソースのネットワーク接続を確立してください。
    
    接続テストでエラー Backend service call failed: test connectivity failed.not support data type が返された場合は、テクニカルサポートに連絡してリソースグループをアップグレードしてください。
メタデータ収集の設定：
- Collection Scope：収集するデータベース (database/schema) を定義します。データソースがデータベース粒度の場合、データソースに対応するデータベースがデフォルトで選択されます。データソース以外の追加のデータベースを選択することもできます。
  重要
  - 各データベースは 1 つのクローラーでのみ設定できます。データベースが選択できない場合、それはすでに別のクローラーによって収集されています。
  - 収集範囲を狭めると、範囲外のメタデータはデータマップで検索できなくなります。
インテリジェント拡張と収集計画の設定：
- インテリジェント拡張設定 (ベータ版)：
  - AI 生成の説明：この機能を有効にすると、メタデータ収集後に、システムが大規模言語モデルの機能を利用して、テーブルとカラムのビジネス上の説明を自動生成し、メタデータの可読性とユーザビリティを大幅に向上させます。収集完了後、データマップのテーブルオブジェクトの詳細ページで、AI が生成した情報 (テーブルの説明やカラムの説明など) を確認できます。
- Collection Plan：
  - Trigger Mode：手動または定期的を選択します。
    - 手動：クローラーは手動でトリガーされた場合にのみ実行されます。このモードは、1 回限りまたはオンデマンドの収集シナリオに適しています。
    - 定期的：定期タスク (月次、日次、週次、時次など) を設定します。システムは定期的にメタデータを自動更新します。
      
      分単位の定期タスクを設定するには、収集周期を時間単位に設定し、すべての分単位の粒度オプションを選択することで、5 分ごとに実行されるタスクを実現できます。
      
      重要
      本番環境のデータソースのみが定期的収集をサポートしています。
設定の保存：Save または Save and Run をクリックして、クローラーの作成を完了します。

カスタムクローラーの管理

クローラーが作成されると、カスタムクローラーリストに表示されます。以下の管理操作を実行できます。

リスト操作：リストでは、クローラーに対して Run、Stop、Delete などの操作を直接実行できます。上部にある Filter と Search 機能を使用して、対象のクローラーをすばやく見つけることができます。

重要
メタデータクローラーを削除すると、そのクローラーによってデータマップに収集されたメタデータオブジェクトは無効になります。そのクローラーからのオブジェクトとその詳細を検索または表示できなくなります。操作は慎重に行ってください。
バッチ操作：リストで複数のクローラーを選択し、リストの下部にある Run または Stop を使用して、複数の収集タスクを一度にトリガーまたは終了させ、管理効率を向上させます。
クローラーのステータス：クローラーリストには、各クローラーの現在のステータスが表示されます。一般的なステータスには、未実行、実行中、成功、失敗があります。

説明
クローラーにバインドされているデータソースがバインド解除されたり無効になったりすると、クローラーは凍結状態になります。凍結されたクローラーは実行や編集ができず、削除のみが許可されます。
詳細とログの表示：対象のクローラーの名前をクリックして、その詳細ページに移動します。
- Basic Information：クローラーのすべての設定項目を表示します。
- Data Scope：Modify Data Scope を表示または実行します。
  
  収集が実行されていない場合、テーブル数と最終更新時間は空です。
  
  次のデータソースは範囲変更をサポートしていません：EMR Hive、CDH Hive、Lindorm、Elasticsearch、OTS、MongoDB、および AnalyticDB for MySQL 内の AnalyticDB for Spark。
- Run Logs：各収集タスクの実行履歴を追跡します。各タスクの開始時刻、持続時間、ステータス、収集されたデータ量を確認できます。タスクが失敗した場合、View Logs をクリックすることが、問題の特定と解決の重要なエントリポイントになります。
手動での収集実行：詳細ページの右上隅にある Collect Metadata をクリックして、収集タスクをすぐにトリガーします。これは、新しく作成したテーブルをすぐにデータマップに表示させたい場合に便利です。

次のステップ

メタデータの収集が成功した後、データマップの機能を最大限に活用できます。

データマップで収集されたテーブルを検索し、その詳細、カラム情報、パーティション、データプレビューを表示します。詳細については、「メタデータの詳細」をご参照ください。
テーブルの上流と下流のリネージを分析して、完全なデータ処理パイプラインを理解します。詳細については、「データリネージ」をご参照ください。
データコレクションに資産を追加して、ビジネスの観点からデータを整理・管理します。詳細については、「データアルバム」をご参照ください。

よくある質問

Q：MySQL または他のデータベースタイプの収集がタイムアウトまたは失敗するのはなぜですか？

A：リソースグループの ネットワークセグメントの切り替え がホワイトリストに追加されているか確認してください。

付録：収集範囲と適時性

データテーブル

Data Source Type	Collection Mode	収集粒度	メタデータ更新の適時性
Data Source Type	Collection Mode	収集粒度	テーブル/カラム	Partition	リネージ
MaxCompute	デフォルトでシステムが自動収集	インスタンス	標準プロジェクト：リアルタイム外部プロジェクト：T+1	中国本土リージョン：リアルタイム国際リージョン：T+1	リアルタイム
Data Lake Formation (DLF)	デフォルトでシステムが自動収集	インスタンス	リアルタイム	リアルタイム	Serverless Spark、Serverless StarRocks、Serverless Flink エンジン、および EMR Impala エンジンの DLF メタデータのリネージがサポートされています。他のエンジンはサポートされていません。重要 EMR クラスターの場合、EMR_HOOK を有効にする必要があります。 EMR Impala タスクのリネージを表示するには、EMR クラスターの Impala 設定でリネージロギングを有効にする必要があります。EMR DataLake クラスターのみがサポートされています。この機能は現在グレーリリース中です。使用する前に Alibaba Cloud テクニカルサポートに連絡して有効にしてください。設定の詳細については、「データリネージ」をご参照ください。
Hologres	手動でクローラーを作成	データベース	収集周期に依存	非対応	リアルタイム
EMR Hive		インスタンス	収集周期に依存	収集周期に依存	リアルタイム重要クラスターに対して EMR_HOOK を有効にする必要があります。 EMR Impala タスクのリネージを表示するには、EMR クラスターの Impala 設定でリネージロギングを有効にする必要があります。EMR DataLake クラスターのみがサポートされています。この機能は現在グレーリリース中です。使用する前に Alibaba Cloud テクニカルサポートに連絡して有効にしてください。設定の詳細については、「データリネージ」をご参照ください。
CDH Hive		インスタンス	収集周期に依存	リアルタイム	リアルタイム
StarRocks		データベース	インスタンスモード：リアルタイム。接続文字列モード：収集周期に依存。	非対応	リアルタイム重要インスタンスモードのみがリネージ収集をサポートしています。接続文字列モードはリネージ収集をサポートしていません。
AnalyticDB for MySQL		データベース	収集周期に依存	非対応	リアルタイム説明 AnalyticDB for MySQL インスタンスのデータリネージ機能を有効にするには、する必要があります。
AnalyticDB for Spark		インスタンス	リアルタイム	非対応	リアルタイム
AnalyticDB for PostgreSQL		データベース	収集周期に依存	非対応	リアルタイム
Lindorm		インスタンス	収集周期に依存	非対応	リアルタイム
OTS		インスタンス	収集周期に依存	非対応	非対応
MongoDB		インスタンス	収集周期に依存	非対応	非対応
Elasticsearch		インスタンス	収集周期に依存	非対応	T+1 更新
Paimon Catalog		カタログ	収集周期に依存	収集周期に依存	非対応
その他のデータソースタイプ (MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse、SelectDB、OceanBase など)		データベース	収集周期に依存	非対応	非対応

説明

AnalyticDB for Spark と AnalyticDB for MySQL は同じメタデータ収集エントリポイントを共有します。

タスクコード

データマップはタスクコードの検索とクイックナビゲーションをサポートしています。以下に検索可能なコードの範囲を説明します。

コードソース	収集範囲	トリガーモード
Data Studio	Data Studio - ノードを作成し、コードを編集	自動収集
レガシー Data Studio	レガシー Data Studio - ノードを作成し、コードを編集
データ分析	データ分析 - SQL クエリを作成し、コードを編集
Data Service	Data Service - API データプッシュサービスを作成

API 資産

データマップは、以下に説明するように、Data Service API のメタデータの表示をサポートしています。

API Type	収集範囲	トリガーモード
API 生成 (ウィザードモード)	Data Service - ウィザードモードで API を作成	自動収集
API 生成 (スクリプトモード)	Data Service - スクリプトモードで API を作成
API 登録	Data Service - API を登録
API オーケストレーション	Data Service - API オーケストレーションを作成

AI 資産

データマップは AI 資産の表示と管理をサポートし、AI 資産リネージを提供してデータとモデルの起源、使用、進化を追跡します。以下に、各タイプの AI 資産のサポート状況を説明します。

資産タイプ	収集範囲	トリガーモード
データセット	PAI - データセットの作成 / データセットの登録 DataWorks - データセットの作成	自動収集
AI モデル	PAI - モデルトレーニングタスク / モデルの登録 / モデルサービスのデプロイ
アルゴリズムタスク	PAI - トレーニングタスク / ワークフロータスク / 分散トレーニングタスク
モデルサービス	PAI - モデルサービスのデプロイ (EAS デプロイメント)

Workspace

データマップは、以下に説明するように、ワークスペースメタデータの表示をサポートしています。

プロジェクト	Collection Mode	トリガーモード
ワークスペース	DataWorks - ワークスペースの作成	自動収集