このトピックでは、データテーブルのデータ概要について説明します。
説明
Data Lake Formation(DLF)は、メタデータと保存データの統計に基づいて、各データテーブルの詳細なメトリクスを提供します。メトリクスには、テーブルのストレージサイズ、テーブル内のファイルの総数、最後のDDL更新時刻、最後のデータ更新時刻、テーブルへのアクセス回数、パーティションの数、パーティションファイルの数、最後のパーティション更新時刻が含まれます。データレイク管理機能を有効にしている場合は、ストレージクラス分布とファイルサイズ分布の統計情報を照会することもできます。
シナリオ
ビジネスの成長に伴い、より具体的なストレージ最適化のために各テーブルに保存されているデータのサイズを迅速に分析したい場合は、サイズメトリクスを使用できます。
データ量の増加に伴い、ストレージコストを節約するためにアクセス頻度の低いテーブルを見つけてコールドアーカイブしたい場合は、ファイルアクセス回数メトリクスを使用できます。
長時間更新されていないテーブルをすばやく見つけて、テーブルをクリーンアップまたは最適化したい場合は、データ最終更新日時メトリクスを使用できます。
メトリクス
メトリクス | 説明 | ソース |
サイズ | テーブルに保存されているすべてのデータのサイズ。 | ロケーションがDLFでホストされている場合、このメトリクスの値はObject Storage Service(OSS)データの統計から取得されます。それ以外の場合、このメトリクスの値はE-MapReduce(EMR)エンジンの統計から取得されます。 |
テーブルの総数 | テーブルに保存されているファイルの総数。 | ロケーションがDLFでホストされている場合、このメトリクスの値はOSSデータの統計から取得されます。それ以外の場合、このメトリクスの値はEMRエンジンの統計から取得されます。 |
パーティションの数 | テーブル内のパーティションの総数。 | このメトリクスの値はメタデータから取得されます。 |
DDL最終更新日時 | データ定義言語(DDL)ステートメントを使用してテーブルが最後に更新された日時。 | ロケーションがDLFでホストされている場合、このメトリクスの値はOSSの統計から取得されます。 |
データ最終更新日時 | データが最後に更新された日時。 | ロケーションがDLFでホストされている場合、このメトリクスの値はOSSの統計から取得されます。 |
過去 1 日間のファイルアクセス回数 | 過去 1 日間のテーブルへのアクセス回数。 | データはさまざまなコンピューティングエンジンから取得されます。現在、データはEMRエンジンからのみ取得されます。適用条件:
|
過去 7 日間のファイルアクセス回数 | 過去 7 日間のテーブルへのアクセス回数。 | |
過去 30 日間のファイルアクセス回数 | 過去 30 日間のテーブルへのアクセス回数。 |
手順
DLFコンソール にログインします。
左側のナビゲーションペインで、 を選択します。
[テーブル] タブをクリックし、[カタログリスト] パラメーターと [データベース名] パラメーターを設定して、検索するテーブルの名前を入力します。
テーブル名をクリックして、テーブルの詳細ページに移動します。
[データ概要] タブをクリックします。