DataWorks Open Data は、DataWorks プラットフォームのメタデータを一元的に集約します。複雑な設定なしで、MaxCompute Package ビューを介してアクセスを認可することで、標準化され追跡可能なメタデータを迅速に取得できます。テーブル、タスクノードとインスタンス、ワークスペース、メンバー、プロジェクト、Data Quality、データ資産に関する詳細なメタデータを提供し、データガバナンスと分析をサポートします。
ユースケース
DataWorks Open Data は、招待制であった以前の Open Data の完全アップグレード版であり、公開されています。新しいバージョンでは、以前のコマンドライン方式がビジュアルインターフェイスに置き換えられ、メタデータをより直感的かつ効率的に管理できます。
Open Data は、以下の目的で使用できます。
-
データインベントリ:ワークスペースとそのオーナーが管理するテーブルやタスクなどのデータオブジェクトに関する明確な統計を取得します。データ構造、ソース、更新頻度、依存関係を理解し、データのブラックボックスを解消します。
-
エンドツーエンドのリネージ追跡:データリネージのメタデータをクエリして、特定のテーブルの上流および下流のパスを追跡します。これにより、ソースからアプリケーションまでの完全なデータフローを追跡でき、問題の迅速な特定や影響分析に役立ちます。
-
カスタムメタデータ分析:既存の OpenAPI に加えて、SQL を使用してメタデータに直接アクセスし、クエリを実行できます。これにより、分析プロセスが簡素化され、データガバナンスのライフサイクルが短縮されます。
前提条件
MaxCompute コンピュートエンジンにバインドされた DataWorks ワークスペースが必要です。
制限事項
-
エディション要件:DataWorks Enterprise Edition 以降のバージョンのみをサポートしています。
-
権限の制限:テナントオーナー、テナント管理者、データガバナンス管理者のロールを持つユーザー、または
DataWorksFullAccess権限を付与された RAM ユーザーのみが DataWorks Open Data のインストールとアンインストールを実行できます。 -
認可の制限:メタデータビューの認可は MaxCompute を通じてのみ付与できます。他のリソースタイプはサポートしていません。
-
データ更新のレイテンシー:メタデータは T+1 のレイテンシーで更新されます。これは、前日の統計をクエリできることを意味します。
Open Data の管理
DataWorks Open Data を表示、インストール、使用できます。
Open Data の表示
Open Data 内のパッケージのメタデータとユースケースを理解し、ニーズに合ったものを選択します。
-
DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、[データマップに移動] をクリックします。
-
データマップページの左側メニューで、
アイコンをクリックしてデータカタログページに移動します。 -
カタログリストで [DataWorks Open Data] をクリックし、[DataWorks Open Data] ページに移動します。
-
Package List タブに切り替え、目的のパッケージの Details をクリックします。Table List で、メタデータテーブルとその説明を表示できます。
-
MetaData と Examples メタデータの違い:
パッケージ名
Open Data
ユースケース
MetaData
テーブルスキーマ、フィールドの説明、データリネージなどのテーブル情報。
タスクの実行ステータスや依存関係などのスケジューリングノードとインスタンス。
ワークスペース、メンバー、プロジェクトなどの管理メタデータ。
Data Quality の詳細やデータガバナンスの詳細などのメタデータ。
データ資産のインベントリ、データリネージ分析、依存関係管理に適しています。
Examples
メタデータメトリックデータのコレクション。
説明Examples パッケージは DataWorks が提供しており、メタデータから生成されたサンプルメトリックテーブルのコレクションが含まれています。実際のデータは、特定のビジネス要件に基づいて変更される場合があります。UI に表示されるデータが正となります。
MetaData パッケージの生データと組み合わせることで、リソース使用率分析やタスクの健全性評価などの一般的な分析シナリオを迅速に構築できます。
重要メタデータテーブルのスキーマとフィールドの詳細については、「Open Data テーブルスキーマの詳細」をご参照ください。
-
-
メタデータテーブルの詳細を確認するには、テーブルの Details をクリックします。テーブル詳細ページで Fields と Description を表示し、Open Data メタデータテーブル間の関係を迅速に理解できます。
Open Data のインストール
ビジネスニーズに基づき、テナント内に関連するデータビューをパッケージとしてインストールできます。このプロセスでは、指定されたワークスペースの MaxCompute コンピュートエンジンにこれらのビューへのアクセスを認可します。
-
Open Data ページに移動します。Package List タブで、対象のパッケージ ([Metadata] または [Examples]) を選択し、Actions 列の Details をクリックします。
-
パッケージページで、使用したいパッケージをインストールします。
-
初回インストール:パッケージページの右上隅にある Load をクリックします。
-
インストール履歴が存在する場合:パッケージページの Installation History タブで、Load をクリックします。
-
-
Install DataWorks Metadata ダイアログボックスで、対象のワークスペースと認可する MaxCompute プロジェクトを選択します。
説明-
認可対象の MaxCompute プロジェクトは、対象のワークスペースにバインドされているコンピュートエンジンです。
-
対象のワークスペースにバインドされている MaxCompute コンピュートエンジンが Installed 状態の場合、再度インストールする必要はありません。
-
標準モードのワークスペースの場合、開発環境と本番環境の両方で MaxCompute コンピュートエンジンをインストールし、認可することを推奨します。
-
-
インストールの注意書きを読み、確認チェックボックスを選択してから Confirm Installation をクリックします。インストールが成功すると、Installation History タブで新しいインストール履歴を表示できます。
対象のワークスペースの MaxCompute コンピュートエンジンで他のパッケージのメタデータを使用するには、上記の手順に従ってインストールし、認可します。
Open Data の使用
対象のワークスペースの MaxCompute コンピュートエンジンに Open Data をインストールした後、そのワークスペースのコンピュートエンジンを使用して、Data Studio または DataAnalysis で認可されたメタデータビューに直接アクセスできます。
-
データマップページの左側メニューで、
アイコンをクリックしてデータカタログページに移動します。 -
カタログリストで [MaxCompute] をクリックし、名前にプレフィックス
u_metaとリージョン名のサフィックスが付いたパッケージをクリックします。 -
詳細ページで、 または をクリックして対応するモジュールに移動し、認可されたメタデータビューをクエリして使用します。
-
Data Studio での使用:
-
Data Studio の上部メニューで、Open Data がインストールされているリージョンとワークスペースに切り替えます。
-
MaxCompute ノードを作成します。ノード編集ページで、Open Data を使用してタスクを開発できます。
-
次のサンプルコードを使用して、インストールが成功したことを確認できます。
SELECT dt ,COUNT(*) AS database_count FROM u_meta_hangzhou.databases GROUP BY dt ORDER BY dt ASC LIMIT 32 ;重要-
コードをテストする際は、認可された MaxCompute コンピュートエンジンを使用する必要があります。
-
u_meta_hangzhouを、お使いの MaxCompute データカタログ内のパッケージ名に置き換えてください。パッケージ名には、プレフィックスu_metaとリージョン名のサフィックスが付いています。
-
-
-
DataAnalysis での使用:
-
DataAnalysis の SQL クエリページには、サンプルメタデータ分析スクリプトが用意されており、必要に応じて変更して使用できます。
-
SQL クエリページの右上隅にある
アイコンをクリックします。認可されたワークスペースと、MaxCompute コンピュートエンジンのバインド時に自動作成されたデータソースを選択します。データソース名はコンピュートエンジンと同じです。その後、DataAnalysis で認可されたメタデータに対してクエリを実行できます。説明サンプルスクリプトを実行する前に、
REPLACE_WITH_WORKSPACE_IDパラメーターをクエリしたいワークスペースの ID に置き換えてください。置き換えない場合、エラーが発生します。ワークスペース ID の取得方法については、「ワークスペースの設定」をご参照ください。
-
-
Open Data のアンインストール
Open Data を使用する必要がなくなった場合、またはワークスペース内の MaxCompute プロジェクトから認可を取り消したい場合は、対応する Open Data パッケージをアンインストールできます。
-
データマップページの左側メニューで、
アイコンをクリックしてデータカタログページに移動します。 -
カタログリストで [MaxCompute] を選択し、名前にプレフィックス
u_metaとリージョン名のサフィックスが付いたパッケージをクリックします。 -
詳細ページの Accessible Projects タブで、対象のプロジェクトを見つけ、Actions 列の Uninstall をクリックします。表示された Confirm Uninstallation of DataWorks Metadata ダイアログボックスで、アンインストールの注意書きを読み、確認チェックボックスを選択してから Confirm Uninstallation をクリックします。
重要アンインストールすると認可が取り消され、依存するタスクが失敗します。続行する前に、これらのビューに依存するアクティブなタスクがないことを確認してください。
よくある質問
-
Q:メタデータ更新のレイテンシーは使用にどのように影響しますか?
A:メタデータは T+1 のレイテンシーで生成されます。これは、前日のアクティビティを反映することを意味します。リアルタイムのメタデータが必要な場合は、DataWorks OpenAPI の使用を推奨します。
-
Q:インストール後に DataWorks Open Data をアンインストールできますか?
A:はい。アンインストールするとビューの認可が取り消されます。中断を避けるため、これらのビューに依存するアクティブなタスクがないことを確認してください。
-
Q:メタデータのセキュリティを確保するにはどうすればよいですか?
A:MaxCompute のデータアクセス制御を使用してアクセス範囲を管理し、機密性の高いメタデータが認可されていないチームと共有されるのを防ぎます。