DataWorks データマップは、データ資産を管理および検出するための一元化されたプラットフォームです。検索エンジンのように、企業のデータを理解し、必要なものを迅速かつ正確に見つけるのに役立ちます。そのコア機能は次のとおりです。
データの概要: データ資産の統計的なビューを提供し、データに関するインサイトを迅速に得るのに役立ちます。
グローバルキーワード検索: 単一のエントリポイントを使用して、テーブル、フィールド、または業務用語を迅速に見つけます。
多次元フィルタリングとブラウジング: 条件を組み合わせて、詳細な探索的データ検索を行います。
制限事項
PAI ワークスペースを作成したテナントは、データセット、AI モデル、アルゴリズムタスク、モデルサービスなどの対応する AI 資産タイプを検索および表示できます。
コード検索は、DataWorks Standard Edition 以上のユーザーのみが利用できます。
データマップへのアクセス
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[データマップへ移動] をクリックします。
データの概要: マクロな視点からインサイトを得る
データの概要には、データソースの全体的な使用状況が表示されます。
データマップの [ホームページ] で、[メタデータ取得] の横にある [データの概要] をクリックします。

データの概要ページでは、現在のリージョン内のすべてのエンジンリソースを表示できます。
主な MaxCompute メトリック:
名前
説明
合計プロジェクト数
現在のリージョン内の MaxCompute プロジェクトの総数です。これはほぼリアルタイムのメトリックです。
合計テーブル数
現在のリージョン内の MaxCompute テーブルの総数です。これはオフラインメトリックであり、T+1 日の遅延があります。
ストレージ
現在のリージョン内のすべてのテーブルの合計論理ストレージサイズです。これには、スケジューリングタスクからの一時ファイルや、テーブルが削除された後に解放されていないストレージ領域が含まれます。これはオフラインメトリックであり、T+1 日の遅延があります。
合計 API 数
現在のリージョンで API Gateway に公開されている MaxCompute API の総数です。
ストレージの傾向
現在のリージョン内の MaxCompute プロジェクトの合計論理ストレージの傾向グラフです。これには、スケジューリングタスクからの一時ファイルや、テーブルが削除された後に解放されていないストレージ領域が含まれます。これはオフラインメトリックであり、T+1 日の遅延があります。
ストレージ別上位プロジェクト
現在のリージョン内の MaxCompute プロジェクトの論理ストレージサイズによるランキングです。これはオフラインメトリックであり、T+1 日の遅延があります。プロジェクトをクリックすると、そのメタデータを表示できます。
重要プロジェクトのストレージには、テーブルのストレージに加えて、リソース、ゴミ箱、その他のシステムファイルのストレージが含まれるため、テーブルのストレージよりも大きくなります。
ストレージ別上位テーブル
MaxCompute テーブルのサイズによるランキングです。これはオフラインメトリックであり、T+1 日の遅延があります。テーブルをクリックすると、そのメタデータを表示できます。
重要テーブルのストレージは、物理ストレージではなく、論理ストレージに基づいて計算されます。
人気のテーブル
過去 30 日間で最も閲覧されたテーブルです。これは、過去 30 日間のデータマップにおけるテーブル詳細ページのページビュー (PV) 数によってランク付けされます。これはほぼリアルタイムのメトリックです。
その他のエンジンメトリック: データベース、テーブル、クラスターの総数などの情報を表示します。
データの検索方法: 検索から発見まで
データマップは、さまざまなデータ検出ニーズを満たすために、2 つの補完的な検索メソッドを提供します。
グローバルキーワード検索
グローバル検索は、探しているものがわかっている場合にデータを検索する最も効率的な方法です。ホームページでは、最近閲覧した項目、フォロー中のコレクション、コレクションの管理ページにもすばやくアクセスできます。
検索バーに移動: データマップのホームページの上部にある検索ボックスを見つけます。
キーワードの入力: メタデータタイプを選択し、テーブル名、フィールド名、コメントなどのキーワードを入力します。たとえば、「user」、「order」、または「user_info」と入力できます。
検索の実行: Enter キーを押します。システムは、関連するすべてのデータ資産のリストを返します。資産をクリックして詳細を表示できます。
多次元フィルタリングとブラウジング
検索範囲を絞り込んだり、業務カテゴリ別にデータを探索したりするには、詳細検索ページを使用できます。ホームページのグローバルキーワード検索バーは、ナビゲーションバーの上にもあります。
検索ページに移動: 左側のナビゲーションウィンドウで、検索アイコン
をクリックして詳細検索ページに移動します。フィルター条件の組み合わせ: ページの左側で、さまざまな条件を選択して結果をフィルターできます。
タイプ: メタデータタイプを選択します。サポートされているタイプには、テーブル、コード、インデックス、API、データセット、ワークスペースがあります。
データソース: テーブルを選択すると、検索を MaxCompute、EMR Hive、Hologres などの特定のエンジンに限定できます。
重要データソースの数が特定の制限を超えた場合は、右上隅の [その他] ボタンをクリックして、非表示のデータソースを表示します。
フィルター条件
プロジェクト、オーナー、環境、クラスター、データカタログ、データベースなどでフィルターできます。
フィルター条件はメタデータタイプによって異なります。
タグ: データガバナンス プロセス中に適用されるタグでフィルターします。 タグは、ページまたはメタデータの詳細で設定できます。
カテゴリ: 業務カテゴリでフィルターします。業務カテゴリを設定するには、 ページに移動します。詳細については、「カテゴリナビゲーション設定」をご参照ください。
例:
「Zhang San」が所有する MaxCompute のすべての本番テーブルを検索するには、[データソース] をMaxComputeに設定し、[オーナー] にZhang Sanと入力し、[環境] をProductionに設定します。
よくある質問
Q: 探しているテーブルが見つからないのはなぜですか?
A: DataWorks データマップでテーブルが見つからない場合、通常は次のいずれかの理由が考えられます。以下の考えられる理由と解決策を確認してください。
検索キーワードの不一致: 検索機能は、テーブル名、説明、フィールド名に一致します。より正確なキーワードまたは部分的なキーワードを使用してみてください。
メタデータが同期されていない: MaxCompute または DLF データソースを DataWorks にアタッチすると、メタデータは自動的に収集されます。ただし、新しいテーブルを作成したり、そのスキーマを変更したりした後にメタデータが同期されるまでに遅延が発生する場合があります。
解決策: [マイデータ] > [マイツール] > [テーブルメタデータの更新] に移動します。操作が成功したら、再度検索してください。テーブルが非表示になっている: テーブルが「非表示」状態に設定されている可能性があり、その場合、検索で検出されません。テーブルのステータスが「非表示」の場合、誰も表示できません。ステータスが「プロジェクトのみ」の場合、現在のワークスペースのメンバーのみが表示できます。
権限が不十分: デフォルトでは、検索範囲は現在のワークスペースと承認されたプロジェクトのみを対象とします。ターゲットテーブルが別のアカウントまたは承認されていないワークスペースに属している場合、検索結果には表示されません。さらに、テーブルに対するクエリ権限がない場合、デフォルトではデータマップに表示されません。これは特に標準モードのワークスペースに当てはまります。
解決策: テーブルのオーナーまたは管理者に連絡して必要な権限をリクエストするか、対応するプロジェクトにメンバーとして追加されていることを確認してください。