DataWorks データマップは、さまざまな DataWorks データソースからのメタデータを一元管理するのに役立つ [メタデータ取得] 機能を提供します。収集されたすべてのメタデータはデータマップで表示できます。このトピックでは、クローラーを作成してデータソースから DataWorks にメタデータを収集する方法について説明します。
概要
メタデータ取得は、エンタープライズレベルのデータマップを構築し、統一されたデータ資産管理を実現するためのコア機能です。クローラーを実行して、データベース、テーブル、フィールドなどの技術的なメタデータを、データリネージやパーティション情報とともに自動的に抽出します。クローラーは、同じリージョン内の異なるワークスペースに分散している MaxCompute、Hologres、MySQL、CDH Hive などのさまざまな DataWorks データソースからこの情報を抽出します。収集されたメタデータは DataWorks データマップに統合され、統一されたデータビューを提供します。
メタデータ取得により、次のことが可能になります。
統一されたデータビューの構築: 複数のソースからの異種メタデータを一元管理することで、データサイロを解消します。
データディスカバリーと検索のサポート: データコンシューマーが必要なデータを迅速かつ正確に見つけられるようにします。
エンドツーエンドのリネージ分析の有効化: 影響分析とトラブルシューティングのために、データの発生源とフローを明確に追跡します。
データガバナンスの強化: 完全なメタデータに基づいて、データ分類、権限コントロール、品質モニタリング、ライフサイクル管理を実行します。
課金
各収集タスクは、デフォルトで 0.25 CU × タスク実行時間 を消費し、リソースグループ料金 が発生します。収集が成功するたびにスケジューリングインスタンスが生成され、タスクスケジューリング料金 が発生します。
制限事項
アクセス制御にホワイトリストを使用するデータソースからメタデータを取得する場合、事前にデータベースのホワイトリストを設定する必要があります。詳細については、「メタデータ収集ホワイトリスト」をご参照ください。
リージョン間のメタデータ取得は推奨されません。DataWorks リージョンはデータソースリージョンと同じである必要があります。リージョン間のメタデータ取得を実行するには、データソースを作成するときにパブリックエンドポイントを使用する必要があります。詳細については、「データソース管理」をご参照ください。
MySQL データベースコレクターを使用して OceanBase データソースからメタデータを取得することはサポートされていません。
機能ページへ移動
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[データマップへ移動] をクリックします。
左側のナビゲーションウィンドウで、
をクリックしてメタデータ取得ページに移動します。
システム組み込みクローラー
システム組み込みクローラーは DataWorks プラットフォームによって事前設定されており、ほぼリアルタイムで自動的に実行されます。これらは主に、DataWorks と深く統合されたコアメタデータを収集するために使用されます。作成する必要はありません。範囲を管理するだけで済みます。
データマップで対象のテーブルが見つからない場合は、 に移動して、手動でテーブルを同期してください。
MaxCompute デフォルトクローラー
このクローラーは、アカウント配下の MaxCompute プロジェクトからメタデータを収集します。詳細ページで、[データ範囲の変更] オプションを使用して収集対象のプロジェクトを選択し、[権限設定] オプションを使用してテナント内のメタデータの可視性を設定できます。
メタデータ取得ページの [システム組み込み] セクションで、[MaxCompute デフォルトクローラー] カードを見つけて [詳細] をクリックします。
MaxCompute デフォルトクローラーの詳細ページには、[基本情報] タブと [データ範囲] タブが含まれています。
基本情報: 収集タイプやメソッドなど、クローラーの基本的なプロパティを表示します。この情報は読み取り専用です。
データ範囲: クローラーがメタデータを収集する MaxCompute プロジェクトを管理します。
収集範囲の変更:
[データ範囲] タブに切り替え、[データ範囲の変更] ボタンをクリックします。
表示されるダイアログボックスで、収集に含める MaxCompute プロジェクトのチェックボックスを選択またはクリアします。
重要デフォルトの範囲には、現在のテナントのワークスペースにアタッチされている、現在のリージョン内のすべての MaxCompute プロジェクトが含まれます。データ範囲を変更すると、データマップ内のメタデータオブジェクトが新しい範囲に合わせて更新されます。つまり、選択されていないプロジェクトのメタデータは表示されなくなります。
[OK] をクリックして変更を保存します。
メタデータの可視性を設定する:
[データ範囲] リストで、対象のプロジェクトを見つけ、[アクション] 列の [権限設定] をクリックします。
データガバナンスの要件に基づいて可視性ポリシーを選択します。
テナント内で公開: テナント内のすべてのメンバーがこのプロジェクトのメタデータを検索および表示できます。
関連付けられたワークスペースのメンバーのみが検索および表示可能: 特定のワークスペースのメンバーのみがこのプロジェクトのメタデータにアクセスできます。これにより、データの隔離が保証されます。
DLF デフォルトクローラー
DLF メタデータのリアルタイム収集をサポートするには、DLF コンソールでサービスリンクロール AliyunServiceRoleForDataworksOnEmr に Data Reader 権限を付与する必要があります。
DLF デフォルトクローラーは、アカウント配下の Data Lake Formation (DLF) からメタデータを収集します。
メタデータ取得ページの [システム組み込み] セクションで、[DLF デフォルトクローラー] カードを見つけて [詳細] をクリックし、その基本情報を表示します。
[データ範囲] タブに切り替えて、収集範囲内にある DLF カタログのリストと、それらが含むテーブルの数を表示します。
デフォルトでは、DLF および DLF-Legacy バージョンを含む、アクセス可能なすべてのカタログが収集されます。
カスタムクローラー
Hologres、StarRocks、MySQL、Oracle、CDH Hive などのデータソースからメタデータを収集するには、カスタムクローラーを作成する必要があります。
カスタムクローラーの作成
メタデータ取得ページのカスタムクローラーセクションで、[メタデータ収集の作成] をクリックします。
収集タイプの選択: タイプ選択ページで、Hologres や StarRocks など、メタデータを収集する対象のデータソースのタイプを選択します。
基本情報とリソースグループの設定:
基本設定:
ワークスペースの選択: データソースが配置されているワークスペースを選択します。
データソースの選択: ドロップダウンリストから既存の対象データソースを選択します。データソースを選択すると、システムが自動的にその詳細を表示します。
名前: クローラーの名前を入力します。デフォルトでは、クローラー名はデータソース名と同じです。
リソースグループの設定:
リソースグループ: 収集タスクを実行するリソースグループを選択します。
接続性のテスト: このステップは重要です。[接続性のテスト] をクリックして、リソースグループがデータソースに正常にアクセスできることを確認します。
重要データソースでホワイトリストベースのアクセス制御が有効になっている場合は、ホワイトリストの権限を設定する必要があります。詳細については、「ネットワーク接続ソリューション」および「一般的な設定: ホワイトリストの追加」をご参照ください。
データソースがホワイトリストを使用しない場合は、そのためのネットワーク接続を確立する必要があります。詳細については、「リソースグループの操作とネットワーク接続」をご参照ください。
メタデータ収集の設定:
収集範囲: メタデータを収集するデータベース (Database/Schema) を定義します。データソースがデータベースレベルの粒度を持つ場合、データソースに関連付けられたデータベースがデフォルトで選択されます。他のデータベースを選択することもできます。
重要データベースは 1 つのクローラーでのみ設定できます。データベースが選択できない場合、それは既に別のクローラーによって収集されています。
収集範囲を狭めると、新しい範囲外のメタデータはデータマップで検索できなくなります。
インテリジェント拡張と収集スケジュールの設定:
インテリジェント拡張設定 (ベータ):
AI 生成の説明: この機能を有効にすると、メタデータを収集した後、システムは大規模モデルを使用してテーブルとフィールドのビジネス説明を自動的に生成します。これにより、メタデータの可読性と使いやすさが大幅に向上します。収集が完了した後、データマップのテーブルオブジェクトの詳細ページに移動して、テーブルの説明やフィールドの説明など、AI が生成した情報を表示できます。
収集スケジュール:
トリガーメソッド: 手動または定期的に選択します。
手動: クローラーは手動でトリガーされた場合にのみ実行されます。これは、1 回限りまたはオンデマンドの収集シナリオに適しています。
定期的: スケジュールされたタスク (月次、日次、週次、時次など) を設定します。システムは定期的にメタデータを自動的に更新します。
分単位 の粒度でタスクを設定するには、スケジュールを時間単位に設定し、目的の分を選択します。たとえば、5 分ごとに実行するタスクを設定できます。
重要本番環境のデータソースのみが定期的な収集をサポートします。
設定の保存: [保存] または [保存して実行] をクリックしてクローラーを作成します。
カスタムクローラーの管理
クローラーが作成されると、カスタムクローラーリストに表示されます。次の管理操作を実行できます。
リスト操作: リストでは、クローラーを [実行]、[停止]、または [削除] できます。上部にある [フィルター] および [検索] 機能を使用して、対象のクローラーをすばやく見つけます。
重要クローラーを削除すると、収集されたメタデータオブジェクトもデータマップから削除されます。これらのオブジェクトとその詳細は検索または表示できなくなります。注意して進めてください。
詳細とログの表示: 対象のクローラーの名前をクリックして、その詳細ページに移動します。
基本情報: クローラーのすべての設定項目を表示します。
データスコープ:表示またはデータスコープの変更。
収集が実行される前に表示した場合、テーブル数と最終更新時間は空です。
次のデータソースでは範囲の変更はサポートされていません: EMR Hive、CDH Hive、Lindorm、Elasticsearch、OTS、および AnalyticDB for MySQL の AnalyticDB for Spark。
実行ログ: 各収集タスクの実行履歴を追跡します。タスクの開始時刻、期間、ステータス、および収集されたデータの量を確認できます。タスクが失敗した場合は、[ログの表示] をクリックして、問題のトラブルシューティングと解決のための情報を見つけます。
収集タスクの手動実行: 詳細ページの右上隅にある [メタデータの収集] ボタンをクリックして、収集タスクをすぐにトリガーします。これは、新しく作成されたテーブルをすぐにデータマップで表示したい場合に便利です。
次のステップ
メタデータが正常に収集された後、データマップの機能を最大限に活用できます。
よくある質問
Q: MySQL などのデータベースの収集タスクがタイムアウトしたり失敗したりするのはなぜですか?
A: リソースグループの [VSwitch CIDR ブロック] をホワイトリストに追加したかどうかを確認してください。
付録: 収集範囲とタイムリネス
データテーブル
データソースタイプ | 収集メソッド | 収集粒度 | メタデータ更新のタイムリネス | ||
テーブル/フィールド | パーティション | リネージ | |||
MaxCompute | システムデフォルトの自動収集 | インスタンス | 標準プロジェクト: リアルタイム 外部プロジェクト: T+1 | 中国本土のリージョン: リアルタイム 中国以外のリージョン: T+1 | リアルタイム |
Data Lake Formation (DLF) | インスタンス | リアルタイム | リアルタイム | DLF メタデータのデータリネージは、Serverless Spark、Serverless StarRocks、および Serverless Flink エンジンでサポートされています。その他ではサポートされていません。 重要 EMR クラスターの場合、EMR_HOOK を有効にする必要があります。 | |
Hologres | 手動でクローラーを作成 | データベース | 収集スケジュールに依存 | リアルタイム | |
EMR Hive | インスタンス | 収集スケジュールに依存 | 収集スケジュールに依存 | リアルタイム 重要 クラスターの EMR_HOOK を有効にする必要があります。 | |
CDH Hive | インスタンス | 収集スケジュールに依存 | リアルタイム | リアルタイム | |
StarRocks | データベース |
| リアルタイム 重要 インスタンスモード のみがデータリネージ収集をサポートします。接続文字列モード はデータリネージを収集できません。 | ||
AnalyticDB for MySQL | データベース | 収集スケジュールに依存 | リアルタイム 説明 AnalyticDB for MySQL インスタンスのデータリネージ機能を有効にするには、する必要があります。 | ||
AnalyticDB for Spark | インスタンス | リアルタイム | リアルタイム | ||
AnalyticDB for PostgreSQL | データベース | 収集スケジュールに依存 | リアルタイム | ||
Lindorm | インスタンス | 収集スケジュールに依存 | リアルタイム | ||
OTS | インスタンス | 収集スケジュールに依存 | |||
その他のデータソースタイプ (MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse など) | データベース | 収集スケジュールに依存 | |||
AnalyticDB for Spark と AnalyticDB for MySQL は、メタデータ収集に同じエントリポイントを使用します。
タスクコード
データマップは、タスクコードの検索と迅速な特定をサポートしています。次の表は、コード検索でサポートされている範囲を示しています。
コードソース | 収集範囲 | トリガーメソッド |
データ開発 | データ開発 - ノードを作成し、コードを編集する | 自動収集 |
データ開発 (レガシー) | データ開発 (レガシー) - ノードを作成し、コードを編集する | |
データ分析 | データ分析 - SQL クエリを作成し、コードを編集する | |
DataService Studio | DataService Studio - API データプッシュサービスを作成する |
API 資産
データマップは、以下に詳述するように、DataService Studio API のメタデータの表示をサポートしています。
API タイプ | 収集範囲 | トリガーメソッド |
生成された API (コードレス UI) | DataService Studio - コードレス UI を使用して API を作成する | 自動収集 |
生成された API (コードエディタ) | DataService Studio - コードエディタを使用して API を作成する | |
登録された API | DataService Studio - API を登録する | |
サービスオーケストレーション | DataService Studio - サービスオーケストレーションを作成する |
AI 資産
データマップは、AI 資産の表示と管理をサポートしています。また、データとモデルのソース、使用状況、進化を追跡するための AI 資産リネージ機能も提供します。次の表は、さまざまな AI 資産のサポートについて説明しています。
資産タイプ | 収集範囲 | トリガーメソッド |
データセット |
| 自動収集 |
AI モデル | PAI - モデルトレーニングタスク/モデルの登録/モデルサービスのデプロイ | |
アルゴリズムタスク | PAI - トレーニングタスク/フロータスク/分散トレーニングタスク | |
モデルサービス | PAI - モデルサービスのデプロイ (EAS デプロイメント) |
ワークスペース
データマップは、以下に詳述するように、ワークスペースメタデータの表示をサポートしています。
項目 | 収集メソッド | トリガーメソッド |
ワークスペース | DataWorks - ワークスペースの作成 | 自動収集 |