DataWorks で Lindorm のデータを扱う際、どのようなテーブルが存在し、そのスキーマや所有権、そしてデータがどのようにテーブル間を流れるかを可視化する必要があります。Lindorm インスタンスを DataWorks にアタッチした後、データマップを使用して Lindorm テーブルのメタデータを収集し、テーブルの検索、フィールドレベルの詳細の検査、データリネージの追跡、ビジネスコンテキストによるテーブルへのアノテーション付けができます。
前提条件
開始する前に、以下をご確認ください:
-
DataWorks にアタッチされた Lindorm インスタンスがあること
-
メタデータ収集を有効にするために、コンピューティングリソースのアタッチページで Spark パラメーターが設定されていること。詳細については、「Lindorm コンピューティングリソースの Spark パラメーターの設定」をご参照ください。
データマップへの移動
DataWorks コンソールにログインします。上部のナビゲーションバーで、ご利用のインスタンスがデプロイされているリージョンを選択します。左側のナビゲーションウィンドウで、[データガバナンス] > [データマップ] を選択し、[データマップへ移動] をクリックします。
Lindorm テーブルのメタデータ収集
-
データマップの左側のナビゲーションウィンドウで、
アイコンをクリックして、データベースコレクターの管理ページを開きます。 -
[データソースパースペクティブ] セクションで、[Lindorm] コレクターを見つけます。
-
メタデータ収集プランを設定して、Lindorm テーブルからメタデータを収集します。
詳細については、「メタデータ取得」をご参照ください。
Lindorm テーブルの検索
Lindorm のメタデータ収集プランが正常に実行された後、以下の手順で特定のテーブルを検索します。
-
データマップの左側のナビゲーションウィンドウで、
アイコンをクリックして検索ページを開きます。 -
左側の タイプ ディレクトリツリーで、[テーブル] を選択します。 [データソース] の下で、[Lindorm] をクリックして Lindorm テーブル一覧を表示します。
説明複数のデータソースが設定されている場合、リストにすべてが表示されないことがあります。「Data Lake Formation」の右側にある[詳細]をクリックして、Lindorm データソースを見つけます。
-
テーブルリストの上にある検索ボックスに、テーブル名のキーワードを入力して結果をフィルターします。
テーブル詳細の表示
Lindorm テーブルのリストページで、テーブル名をクリックして詳細ページを開きます。
詳細ページには、次のセクションがあります:
| セクション | 説明 |
|---|---|
| ショートカット操作 | [アルバムに追加]、[追加されたアルバムを表示]、または [お気に入りに追加] |
| テーブルの基本情報 | データベース、テーブルタイプ、オーナー、作成時間、およびテーブルがパーティション化されているかどうか |
| テーブルの技術情報 | ストレージパス、入力フォーマット、および出力フォーマット |
| 詳細 | フィールド情報とフィールドリネージ |
| リネージ | Lindorm テーブル間のデータリネージ |
| 利用ノート | ビジネスコンテキストのアノテーション、完全なバージョン履歴付き |
基本情報の表示
テーブル詳細ページの左側のパネルには、次の 3 つのセクションが表示されます:
-
テーブルの基本情報:テーブル名、作成時間、およびテーブルがパーティション化されているかどうか
-
[技術情報]:ストレージパスと入出力フォーマット
-
ビジネス情報:ワークスペースのリージョンと関連付けられた Lindorm インスタンス
フィールドの検査
[詳細] タブをクリックして、フィールドレベルの情報を表示します。
-
フィールド名と型の表示:[フィールド情報] セクションには、テーブル内のすべてのフィールドとそのデータの型が一覧表示されます。
-
フィールドの検索:テーブルに多くのフィールドがある場合、[フィールド情報] の下にある検索ボックスにフィールド名を入力して、フィールドをすばやく見つけます。
-
Copilot でフィールドの説明を生成:[フィールド情報] の下にある [推奨フィールド説明] をクリックします。Copilot は、フィールド名とそのコンテキストに基づいて各フィールドの説明を生成します。これは、フィールド名が省略されていたり、不明確な場合に特に役立ちます。
-
フィールドリネージの表示: フィールドの [操作] 列にある
アイコンをクリックして、そのリネージグラフを開きます。
データリネージの表示
データリネージは、データがテーブルとフィールドの間をどのように流れるかを示します。これは、実際のデータフロー (解析されたスケジューリングジョブとデータ同期タスク) から派生し、リアルタイムで計算されます。
データリネージ機能は、DataWorks Standard Edition 以降でのみ利用可能です。
リネージは、Lindorm Spark SQL ノードで次の SQL ステートメントタイプが実行されるときに生成されます:insert into、insert overwrite table、create as select from table、create table、および create table like。
データマップが Lindorm Spark SQL ノードによって生成されたリネージを表示しない場合は、ジョブコード内で関連する DataWorks のスケジューリングパラメーターを手動で設定してください。詳細については、「Lindorm コンピューティングリソースのアタッチ」をご参照ください。
テーブル詳細ページの [リネージ] タブをクリックして、[テーブルリネージ] と [フィールドリネージ] を表示します。
テーブルリネージ
テーブルリネージグラフは、現在のテーブルの上流および下流の関係を示します。
| アクション | 方法 |
|---|---|
| ノード詳細の表示 | テーブルまたはノードにカーソルを合わせる |
| 上流および下流のカウントの確認 | カウントは各テーブルのグラフに直接表示されます |
| ノードの展開 | アイコンをクリックする |
| ノードの折りたたみ |
フィールドリネージ
フィールドリネージグラフは、特定のフィールドのデータが他のフィールドとの間でどのように流れるかを示します。
| アクション | 方法 |
|---|---|
| フィールドの切り替え | [フィールドの切り替え] エリアを使用して、現在のテーブルから別のフィールドを選択する |
| ノード詳細の表示 | フィールドまたはノードにカーソルを合わせる |
| 上流および下流のカウントの確認 | カウントは選択したフィールドのグラフに直接表示されます |
| ノードの展開 | アイコンをクリックする |
| ノードの折りたたみ |
利用ノートの編集
利用ノートには、テーブルの目的や関連する適用シナリオなど、テーブルに関するビジネスコンテキスト情報が保存されます。
-
テーブル詳細ページで [利用ノート] タブをクリックします。
-
[編集] をクリックします。ダイアログボックスで、テーブルの利用ノートを入力し、[保存] をクリックします。
-
以前のバージョンを確認するには、[バージョンの表示] をクリックします。すべてのバージョンレコードが一覧表示されます。[操作] 列の [表示] をクリックして、特定のバージョンのノートを読み取ります。
テーブルのお気に入りへの追加
お気に入りを使用して、テーブルをブックマークし、すばやくアクセスします。
-
テーブル詳細ページで、テーブル名の下にある [お気に入りに追加] をクリックしてテーブルを追加するか、[お気に入りから削除] をクリックして削除します。
-
お気に入りに追加したすべてのテーブルを表示するには、ナビゲーションウィンドウの
アイコンをクリックします。ディレクトリツリーで、[マイデータ] > [マイお気に入り] を選択します。[データタイプ] を [Lindorm] に設定して、お気に入りに追加した Lindorm テーブルをフィルターします。
データアルバムの詳細については、「テーブルをデータアルバムに追加」をご参照ください。
アイコンをクリックする