DataWorks データマップは、データ資産を集中管理および検出するためのプラットフォームです。検索エンジンのように、企業のデータランドスケープ全体を把握し、必要なデータを迅速かつ正確に見つけることができます。その主な機能は次のとおりです:
-
[Data Overview]:データ資産に関する統計情報を提供し、現状を素早く把握できます。
-
グローバルキーワード検索:単一のエントリポイントから、関心のあるテーブル、フィールド、またはビジネス用語を迅速に見つけることができます。
-
多次元フィルタリングとブラウジング:さまざまな条件を組み合わせることで、洗練された探索的なデータ検出が可能になります。
[Limits]
-
既存の PAI ワークスペース を持つテナントは、データセット、AI モデル、アルゴリズムタスク、モデルサービスなどの関連する AI 資産を検索および表示できます。
-
コード検索は、DataWorks Standard Edition 以降のユーザーのみが利用できます。
データマップへのアクセス
DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、[データマップに移動] をクリックします。
データ概要
データ概要ページでは、データソースの使用状況の概要を確認できます。
-
データマップの Homepage で、Data Overview の横にある Metadata Collection をクリックします。
-
データ概要ページでは、現在のリージョン内のすべてのエンジンリソースが表示されます。
-
MaxCompute の主要メトリクス:
[Name]
[Description]
[Total Number of Projects]
現在のリージョンにおける MaxCompute プロジェクトの総数です。このデータは ニアリアルタイム で更新されます。
[Total Tables]
現在のリージョンにおける MaxCompute テーブルの総数です。このデータはオフラインで収集され、T+1 のレイテンシー があります。
[Storage]
現在のリージョンにあるすべてのテーブルの合計論理ストレージサイズです。これには、スケジュールされたタスクからの一時ファイルや、テーブル削除後にまだ解放されていないストレージ領域が含まれます。このデータはオフラインで収集され、T+1 のレイテンシー があります。
[Total APIs]
現在のリージョンで API Gateway に公開されている MaxCompute タイプの API の総数です。
[Storage Trend Chart]
現在のリージョンにおける MaxCompute プロジェクトの合計論理ストレージを示す傾向グラフです。これには、スケジュールされたタスクからの一時ファイルや、テーブル削除後にまだ解放されていないストレージ領域が含まれます。このデータはオフラインで収集され、T+1 のレイテンシー があります。
[ストレージ別上位プロジェクト]
現在のリージョンにおける MaxCompute プロジェクトの論理ストレージサイズによるランキングです。このデータはオフラインで収集され、T+1 のレイテンシー があります。プロジェクトをクリックすると、そのメタデータを表示できます。
重要プロジェクトのストレージには、テーブルストレージだけでなく、リソースストレージ、ごみ箱ストレージ、およびその他のシステムファイルストレージも含まれるため、テーブルストレージ単体よりも大きくなります。
[ストレージ別上位テーブル]
MaxCompute テーブルのサイズによるランキングです。このデータはオフラインで収集され、T+1 のレイテンシー があります。テーブルをクリックすると、そのメタデータを表示できます。
重要テーブルストレージは、物理ストレージではなく論理ストレージに基づいて計算されます。
[Most Frequently Viewed Tables]
過去 30 日間に最も頻繁に表示されたテーブルで、データマップのテーブル詳細ページのページビュー (PV) に基づいてランク付けされます。このデータは ニアリアルタイム で更新されます。
-
その他のエンジンメトリクス:データベース、テーブル、クラスターの総数などの情報を表示します。
-
データの検索
データマップは、さまざまなデータ検出ニーズに対応するために、2 つの補完的な検索方法を提供します。
グローバルキーワード検索
探しているデータが明確な場合、グローバルキーワード検索が最も効率的な方法です。ホームページからは、[最近表示した項目]、[フォロー中のコレクション]、[管理対象コレクション] にも素早くアクセスできます。
-
検索バーに移動:検索バーは、データマップのホームページの上部にあります。
-
キーワードの入力:メタデータタイプを選択し、テーブル名、フィールド名、コメントなどの Keyword を入力します。たとえば、「user」、「order」、または「user_info」と入力します。
-
検索の実行:Enter キーを押します。一致するすべてのデータ資産のリストが返されます。資産をクリックすると、その詳細を表示できます。
多次元フィルタリングとブラウジング
検索範囲を絞り込んだり、ビジネスカテゴリで探索したりする必要がある場合は、検索ページで高度な検索を実行できます。グローバルキーワード検索バーは、ページの上部で引き続き利用できます。
-
検索ページに移動:左側のナビゲーションペインで検索アイコン
をクリックして、詳細検索ページを開きます。 -
フィルター条件の組み合わせ:ページの左側で、さまざまなフィルター条件を選択して、結果を段階的に絞り込みます:
-
[Type]:メタデータタイプを選択します。サポートされているタイプには、[テーブル]、[コード]、Index、API、[データセット]、Workspace などがあります。
-
データソース:テーブルを選択すると、MaxCompute、EMR Hive、Hologres などの特定のエンジンに検索を限定できます。
重要データソースの数が表示制限を超えた場合は、右上隅の More ボタンをクリックして、非表示のデータソースを表示します。
-
フィルター条件:プロジェクト、所有者、環境、クラスター、データカタログ、データベースなどでフィルターできます。
使用可能なフィルター条件は、メタデータタイプによって異なります。
-
例:
MaxCompute の本番環境で、John Doe が所有するすべてのテーブルを検索します。操作: 「データソース」でMaxComputeを選択 → 「所有者」にJohn Doeを入力 → 「環境」でProductionを選択します。
[AI Search]
単一のキーワードで探しているものを説明するのが難しい場合や、ビジネスシナリオに基づいて提案が欲しい場合は、[AI Search]を使用して、資産を特定し、関連テーブルを推奨し、自然言語の対話を通じてその根拠を説明してもらうことができます。
-
検索ページから:データマップ検索ページの右上にある AI Search タブに切り替えて、対話型の検索体験を開始します。
-
ホームページから:データマップのホームページにある検索ボックスは、スマート質問モードに切り替えることができます。質問を送信すると、システムは AI 検索セッションページに移動して対話を続けます。
使用方法:入力ボックスに自然言語で要件を記述します。例:
取引ビジネスに関連するファクトテーブルを検索する。過去 7 日間に追加されたデータセットを照会する。「データガバナンス」ビジネスユニットに属する MaxCompute プロジェクトをリストアップする。
セッション管理:ホームページから質問をすると、新しいセッションが作成されます。AI 検索ページを直接開くと、特定のセッションが指定されていない場合、デフォルトで最後のセッションが継続されます。必要に応じて、新しいセッションを作成したり、履歴セッションに戻ったりすることができます。
-
クイック質問テンプレート:AI 検索セッションページの下部には、一般的な質問テンプレートが用意されています。テンプレートをクリックすると、直接送信できます。
-
グローバル検索との関係:グローバル検索は キーワードとフィルター によってメタデータを正確に照合します。一方、AI 検索は 自然言語とセマンティックコンテキスト によって意図を理解し、推奨事項を提供します。両者は互いに補完し合います。対象オブジェクトがわかっている場合はグローバル検索を使用し、ビジネス要件を説明する場合は AI 検索を使用します。
AI 検索は現在、テナントごとのグレースケールリリースで展開されています。テナントでこの機能が有効になっている場合にのみ表示されます。利用をリクエストするには、管理者にお問い合わせいただくか、チケットを起票してください。
[FAQ]
-
Q:探しているテーブルが見つからないのはなぜですか?
A: DataWorks データマップでテーブルが見つからない場合は、以下の考えられる原因と解決策を確認してください。
-
検索キーワードの不一致:検索では、テーブル名、説明、フィールド名による検索がサポートされています。より正確なキーワードや部分的なキーワードを使用してみてください。
-
メタデータが同期されていない:DataWorks は、MaxCompute または DLF に関連付けた後、メタデータを自動的に収集しますが、テーブルを作成または変更した後に同期の遅延が発生する場合があります。
解決策:[マイデータ] > [マイツール] > [テーブルメタデータの更新] に移動します。操作が成功したら、テーブルを再度検索します。 -
テーブルが非表示になっている:テーブルが [非表示] に設定されている可能性があり、その場合、検索で検出できなくなります。テーブルのステータスが [非表示] の場合、誰にも表示されません。ステータスが [プロジェクトのみ] の場合、ワークスペースのメンバーにのみ表示されます。
-
権限が不十分:デフォルトでは、検索は現在のワークスペースと権限のあるプロジェクトのみを対象とします。対象のテーブルが別のアカウントまたは権限のないワークスペースに属している場合、見つけることはできません。さらに、テーブルに対するクエリ権限がない場合、デフォルトではデータマップに表示されません。これは特に標準モードのワークスペースに当てはまります。
解決策:テーブルの所有者または管理者に連絡して権限をリクエストするか、対応するプロジェクトのメンバーであることを確認してください。
-