DataWorks Open Data は、DataWorks プラットフォーム用の一元化されたメタデータコレクションです。これにより、MaxCompute コンピュートエンジンは、複雑な設定を行うことなく、標準化され追跡可能なメタデータ (テーブル、タスクノードとインスタンス、ワークスペース、メンバー、プロジェクト、Data Quality、データ資産を含む) にアクセスできます。
ワークフローの概要: パッケージの表示 → インストールと権限付与 → メタデータのクエリ → 完了後のアンインストール
ユースケース
Open Data は、以前の 招待制 の Open Data を、一般に公開されたビジュアルインターフェイスでの操作にアップグレードします。コマンドラインを使用する代わりに、DataWorks コンソールで直接メタデータを管理およびクエリできます。
Open Data は、以下のシナリオで使用します。
-
データインベントリ:テーブル、タスク、ワークスペース、オーナー、更新頻度、依存関係といったデータオブジェクトの全体像を把握し、組織全体のデータのブラックボックスを解消できます。
-
エンドツーエンドのリネージ追跡:特定のテーブルの上流および下流のリネージパスに対してカスタム SQL クエリを実行し、ソースから下流アプリケーションまでの完全なデータフローを追跡して、問題の特定や影響評価を迅速に行えます。
-
カスタムメタデータ分析:既存の OpenAPI に加えて、SQL を使用して直接メタデータをクエリおよび分析することで、データガバナンスのライフサイクルを短縮できます。
前提条件
開始する前に、以下が準備できていることを確認してください。
-
MaxCompute コンピューティングリソースにバインドされている DataWorks ワークスペース
制限事項
-
エディション:DataWorks Enterprise Edition 以降のみがサポートされています。
-
権限:テナントオーナー、テナント管理者、データガバナンス管理者、または
DataWorksFullAccess権限を持つ Resource Access Management (RAM) ユーザーのみが Open Data をインストールおよびアンインストールできます。 -
権限付与の範囲:メタデータビューの権限付与は、MaxCompute を通じてのみサポートされます。他のリソースタイプはサポートされていません。
-
データ更新の遅延:メタデータは T+1 の遅延で更新されます。つまり、前日のメタデータをクエリできます。リアルタイムのメタデータが必要な場合は、代わりに DataWorks OpenAPI を使用してください。
Open Data の表示
パッケージをインストールする前に、利用可能なパッケージを調べて、そのメタデータの内容と対象シナリオを理解してください。
-
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、データガバナンス > データマップ を選択します。表示されたページで、[データマップへ] をクリックします。
-
データマップページの左側のナビゲーションウィンドウで、
アイコンをクリックして データカタログ ページに移動します。 -
カタログリストで、DataWorks OpenData をクリックします。
-
パッケージリスト タブで、パッケージの 詳細 をクリックします。テーブルリスト タブで、メタデータテーブルとその説明を確認します。利用可能な 2 つのパッケージは、それぞれ異なる目的を果たします。
Examples パッケージは DataWorks によって提供されます。
重要テーブルスキーマとフィールドの詳細については、「Open Data テーブルスキーマの詳細」をご参照ください。
パッケージ名 Open Data シナリオ MetaData テーブル情報 (テーブルスキーマ、フィールド説明、データリネージ)、スケジューリングノードとインスタンス (タスク実行ステータス、依存関係)、管理メタデータ (ワークスペース、メンバー、プロジェクト)、Data Quality とデータガバナンスの詳細。 データ資産インベントリ、データリネージ分析、依存関係管理。 Examples MetaData から生成されたサンプルメトリックテーブルのコレクション。実際のデータは異なり、UI に表示されるデータが優先されます。 MetaData の生データと組み合わせて、リソース使用率分析やタスクの健全性評価など、一般的な分析シナリオを迅速に構築します。 -
特定のメタデータテーブルを検査するには、そのテーブルの 詳細 をクリックします。テーブル詳細ページで、フィールド名 と 説明 列を確認して、Open Data メタデータテーブル間の関係を理解します。
Open Data のインストール
パッケージをインストールすると、選択した MaxCompute コンピュートエンジンにそのパッケージ内のすべてのデータビューへのアクセス権が付与されます。
-
Open Data ページに移動します。パッケージリスト タブで、対象のパッケージ (MetaData または Examples) を選択し、[操作] 列の 詳細 をクリックします。
-
パッケージページで、インストール をクリックします。
-
初回インストール:パッケージページの右上隅にある インストール をクリックします。
-
インストール履歴がある場合:インストール履歴 タブで、インストール をクリックします。

-
-
DataWorks メタデータのインストール ダイアログボックスで、宛先ワークスペースと権限を付与する MaxCompute プロジェクトを選択します。
説明-
選択する MaxCompute プロジェクトは、宛先ワークスペースにバインドされているコンピュートエンジンです。
-
コンピュートエンジンがすでに インストール済み 状態の場合は、このステップをスキップします。
-
標準モードのワークスペースの場合、開発環境と本番環境の両方にバインドされている MaxCompute コンピュートエンジンをインストールして権限を付与します。
-
-
インストールに関する注意事項を読み、確認チェックボックスを選択して、インストールを確認 をクリックします。インストールが成功すると、新しいレコードが インストール履歴 タブに表示されます。
同じコンピュートエンジンで追加のパッケージのメタデータを使用するには、各パッケージで上記の手順を繰り返します。
Open Data の使用
Open Data をインストールした後、Data Studio (タスク開発用) またはデータ分析 (アドホック SQL クエリ用) で権限が付与されたメタデータビューにアクセスします。
| ツール | 最適な用途 |
|---|---|
| Data Studio | プログラムによってメタデータをクエリする MaxCompute タスクの作成およびスケジューリング |
| データ分析 | タスクノードを設定せずに、メタデータに対して実行する対話型のアドホック SQL クエリ |
-
データマップページの左側のナビゲーションウィンドウで、
アイコンをクリックしてデータカタログページに移動します。 -
カタログリストで MaxCompute をクリックし、プレフィックスが
u_metaで、サフィックスがリージョン名のパッケージをクリックします。
-
詳細ページで、ワークフローに応じて 今すぐ使用 > Data Studio または 今すぐ使用 > データ分析 を選択します。
Data Studio での使用
-
Data Studio の上部メニューバーで、Open Data がインストールされているリージョンとワークスペースに切り替えます。
-
MaxCompute ノードを作成します。ノード編集ページで、権限が付与されたメタデータビューに対するクエリを作成します。
-
インストールが機能していることを確認するには、次のサンプルクエリを実行します。
重要-
クエリを実行する際は、権限が付与された MaxCompute コンピュートエンジンを使用してください。
-
u_meta_hangzhouを、ご利用の MaxCompute データカタログの実際のパッケージ名に置き換えてください。パッケージ名は、プレフィックスがu_metaで、サフィックスがリージョン名です。
SELECT dt ,COUNT(*) AS database_count FROM u_meta_hangzhou.databases GROUP BY dt ORDER BY dt ASC LIMIT 32 ; -
DataAnalysis での使用
-
データ分析の SQL クエリページに移動します。システムは、変更可能なサンプルメタデータ分析スクリプトを提供します。
-
SQL クエリページの右上隅にある
アイコンをクリックします。権限が付与されたワークスペースを選択し、MaxCompute コンピュートエンジンをバインドしたときに生成されたものと同じ名前のデータソースをバインドします。 -
サンプルスクリプトを実行する前に、
REPLACE_WITH_WORKSPACE_IDをクエリしたいワークスペースの ID に置き換えてください。ワークスペース ID の取得方法については、「ワークスペースの設定」をご参照ください。
Open Data のアンインストール
パッケージをアンインストールすると、MaxCompute コンピュートエンジンに付与された権限が取り消され、このデータに依存するタスクが中断されます。続行する前に、アクティブな依存関係が存在しないことを確認してください。
-
データマップページの左側のナビゲーションウィンドウで、
アイコンをクリックしてデータカタログページに移動します。 -
カタログリストで MaxCompute を選択し、プレフィックスが
u_metaで、サフィックスがリージョン名のパッケージをクリックします。 -
詳細ページの アクセス可能なプロジェクト タブで、宛先プロジェクトを見つけ、[操作] 列の アンインストール をクリックします。DataWorks メタデータのアンインストールを確認 ダイアログボックスで、アンインストールに関する注意事項を読み、確認チェックボックスを選択して、アンインストールを確認 をクリックします。
よくある質問
メタデータに 1 日の遅延があるのはなぜですか?
Open Data のメタデータは T+1 の遅延で生成されます。これは、前日のアクティビティを反映することを意味します。これはプラットフォームレベルの一括更新の制約です。リアルタイムのメタデータが必要な場合は、代わりに DataWorks OpenAPI を使用してください。
インストール後に Open Data をアンインストールできますか?
はい。アンインストールすると、MaxCompute コンピュートエンジンに付与された権限が取り消され、それらのメタデータビューをクエリするタスクが中断されます。アンインストールする前に、アクティブなタスクやスケジュールされたジョブがビューに依存していないことを確認してください。
メタデータを保護するにはどうすればよいですか?
MaxCompute のデータアクセスコントロールを使用して、機密メタデータにアクセスできるユーザーを制限します。