ライフサイクル管理は、複数のタイプのライフサイクルルールをサポートしています。 さまざまなライフサイクルルールを作成することで、データレイクのデータライフサイクルを簡単に管理し、ストレージコストを節約できます。 このトピックでは、ライフサイクルルールの基本操作について説明します。
機能説明
ライフサイクル管理を使用して、データレイク内のデータベースとテーブルのデータ管理ルールを構成できます。 データの最終アクセス時刻、時間別パーティション値、パーティション/テーブルの作成時刻、最後のパーティション/テーブルの更新時刻というルールタイプに基づいて、定期的にデータのストレージタイプを変換できます。 これにより、データストレージコストが削減されます。
シナリオ
大量の既存のデータベースまたはテーブルデータがデータレイクに保存されています。 既存データは、時間の経過とともにビジネスに使用されなくなります。 この場合、既存データのストレージタイプを低頻度アクセス(IA)、アーカイブ、またはコールドアーカイブに変換して、コストを削減できます。 例:
注文テーブル。 注文テーブルのパーティションは、20220101 という名前のパーティションなど、時間に基づいて作成されます。 過去 3 年間の注文テーブルデータのみを分析する必要があります。 ストレージコストを削減するために、既存のパーティションデータのストレージタイプをコールドアーカイブに変更する必要があります。 この場合、「時間別パーティション値」ルールタイプに基づいて定期的なアーカイブを構成できます。
ビジネス A のデータベース A。 ビジネス A は活発に開発されなくなったため、既存データをデータベース A に一時的にアーカイブする必要があります。 データベース A のデータのストレージタイプを IA、標準、またはアーカイブからコールドアーカイブに変更できます。
データ管理ルールを構成する際は注意が必要です。
ストレージタイプがアーカイブまたはコールドアーカイブに変換されたデータは、コンピューティングエンジンからアクセスできません。 データを使用するには、関連するコストが発生しますが、手動でデータを解凍する必要があります。 詳細については、OSS ストレージタイプ および ストレージタイプの変換 をご参照ください。
IA タイプに保存されているデータは、コンピューティングエンジンによって取得されると、アクセス効率が低下する可能性があります。
制限事項
メタデータは Data Lake Formation(DLF)を使用して管理され、データは Object Storage Service(OSS)に保存されます。
非構造化データ管理はサポートされていません。 非構造化データ管理が必要な場合は、OSS ドキュメントのライフサイクルを参照してください。
課金
ライフサイクル管理機能を使用する場合、以下の料金が発生します。
DLF のライフサイクル管理機能はパブリックプレビュー中です。 この機能は無料です。
ライフサイクルルールに関連する料金の詳細については、「ライフサイクルルールに関連する料金」をご参照ください。
注意事項
データのストレージタイプがアーカイブまたはコールドアーカイブに変更された場合、コンピューティングエンジンからデータにアクセスできません。 データを使用する前に、手動でデータを解凍する必要があり、関連費用が発生します。 詳細については、「ストレージタイプ」および「ストレージタイプの変換」をご参照ください。
ビジネス要件に基づいてライフサイクルルールを構成します。
データのストレージタイプが IA に変更された場合、コンピューティングエンジンによってデータにアクセスされると、データのパフォーマンスが低下します。 ビジネス要件に基づいてライフサイクルルールを構成します。
ライフサイクルルールタスクの「実行スケジューリング」スイッチをオンにすると、ライフサイクルルールタスクは毎晩定期的に実行され、翌日の 08:00 より前に有効になります。 手動で実行されるライフサイクルルールタスクの場合、ライフサイクルルールタスクは実行後すぐに有効になります。
手順
前提条件
OSS がアクティブ化されている。 OSS をアクティブ化していない場合は、OSS コンソール に移動して OSS をアクティブ化します。
ライフサイクル管理のデータベースとテーブルに対する権限は、DLF によって適用されるデータ権限制御の対象となります。 そのため、承認された権限内にあるデータベースとテーブルに対してのみライフサイクルルールを構成できます。
ライフサイクルルールの作成
ライフサイクルルールを作成するには、次の手順を実行します。
Data Lake Formation コンソール にログオンします。
左側のナビゲーションウィンドウで、[レイク管理] > [ライフサイクル管理] を選択します。
[ルールの作成] をクリックしてルールを構成します。.
基本情報を入力します: [名前]、[説明]、[カタログリスト]、[リソースタイプ]。
[リソースタイプ] は、ライフサイクルルールの構成に対応するメタデータベースまたはメタデータテーブルに応じて、データベースまたはテーブルに設定できます。
ルールタイプを選択します。 DLF は、次の 4 つのルールタイプをサポートしています。
データの最終アクセス時刻: データが最後にアクセスされた時刻に基づいてライフサイクルを定義できます。 テーブルにパーティションがある場合は、最も細かい粒度の最後のパーティションアクセス時刻が使用されます。 テーブルにパーティションがない場合は、最後のテーブルアクセス時刻が使用されます。
時間別パーティション値: パーティション値に基づいてライフサイクルを定義できます。 このルールタイプは、レベル 1 パーティションに時間形式が含まれているテーブルに適しています。
最後のパーティション/テーブルの更新時刻: パーティションまたはテーブルが変更された時刻に基づいてライフサイクルを定義できます。 テーブルにパーティションがある場合は、最も細かい粒度のパーティションが最後に変更された時刻が使用されます。 テーブルにパーティションがない場合は、テーブルが最後に変更された時刻が使用されます。
パーティション/テーブルの作成時刻: パーティションまたはテーブルが作成された時刻に基づいてライフサイクルを定義できます。 テーブルにパーティションがある場合は、最も細かい粒度のパーティション作成時刻が使用されます。 テーブルにパーティションがない場合は、テーブル作成時刻が使用されます。
データのストレージタイプが IA、アーカイブ、またはコールドアーカイブに変換される間隔を選択します。
実行メカニズムを構成します。
DLF で現在のライフサイクルルールを毎日自動的に実行するには、[実行スケジューリング] スイッチをオンにします。現在のライフサイクルルールを毎日自動的に実行する必要がない場合は、ライフサイクルルールを作成した後、ライフサイクル管理ページで [手動実行] をクリックして、ライフサイクルルールを手動で実行できます。定期的な実行は、毎日 08:00 より前に完了します。
[次へ] をクリックして、アーカイブするメタデータベースまたはメタデータテーブルを選択します。
[データベースリソースの追加] をクリックし、バインドするリソースを選択し、検索と複数ページ選択をサポートし、[追加] をクリックします。
リソースを追加した後、[OK] をクリックして、リソースバインディング結果を表示します。
バインディングが成功した場合、正常にバインドされたリソースの数を確認できます。 バインディングが失敗した場合、失敗の理由を確認できます。
説明[リソースタイプ] パラメーターをデータベースに設定した場合、データベースリソースを追加できます。 [リソースタイプ] パラメーターをテーブルに設定した場合、テーブルリソースを追加できます。
テーブルルールの優先度は、データベースルールよりも高くなります。 テーブルがデータベースルールに関連付けられている場合、テーブルに関連付けられている元のデータベースルールは置き換えられます。
各データベースまたはテーブルは、一度に 1 つのライフサイクルルールにのみ関連付けることができます。
各ライフサイクルルールは、最大 1,000 個のリソースに関連付けることができます。
ライフサイクルルールを構成してから、リソースをライフサイクルルールに関連付けることができます。 リソースをライフサイクルルールに関連付けた後、[保存] をクリックします。
ライフサイクルルールの編集
現在のライフサイクルルールを変更または編集する場合は、目的のライフサイクルルールを見つけて、[ライフサイクル管理] ページの [アクション] 列で [編集] をクリックします。
ライフサイクルルールが変更された後、[実行スケジューリング] スイッチをオンにすると、変更は翌日有効になります。
変更されたライフサイクルルールが再度実行されると、ライフサイクルルールに関連付けられているすべてのリソースが影響を受けます。 影響は以下のとおりです。
データのストレージタイプが IA、アーカイブ、またはコールドアーカイブに設定されている場合、現在のストレージタイプは変更されません。
データのストレージタイプが IA、アーカイブ、またはコールドアーカイブに設定されていない場合、変更されたライフサイクルルールが有効になります。
ライフサイクルルールの表示
左側のナビゲーションウィンドウで、[レイク管理] > [ライフサイクル管理] を選択します。
ルールを選択し、ルール ID をクリックして、ルールの現在の情報を表示します。
[基本情報]: [基本情報] タブで、基本情報、ルールの詳細、および実行メカニズムを確認できます。
[リソース情報]: [リソース情報] タブで、関連付けられているデータベースまたはテーブルに関する情報を確認できます。
[実行履歴]: ルールの手動実行とスケジュール実行の履歴情報。
ライフサイクルルールの削除
左側のナビゲーションウィンドウで、[レイク管理] > [ライフサイクル管理] を選択します。
削除するライフサイクルルールを見つけ、[アクション] 列の [削除] をクリックし、ポップアップボックスの [削除] をクリックします。
ライフサイクルルールを削除した後、ライフサイクルルールは手動でも自動的および定期的にも実行できません。
ライフサイクルルールを削除した後、以前にルールによって影響を受けたデータは現在の状態のままになります。
ライフサイクルルールの手動実行
左側のナビゲーションウィンドウで、[レイク管理] > [ライフサイクル管理] を選択します。
手動で実行するライフサイクルルールを見つけ、[アクション] 列の [手動実行] をクリックし、ポップアッププロンプトをよく読んで、[OK] をクリックしてタスクを開始します。
手動で実行された操作はすぐに実行され、現在バインドされているリソースのデータに影響を与え、ビジネスアクセスに影響を与える可能性があります。 実行前にリスクを正確に評価してください。
タスク実行レコードの表示
左側のナビゲーションウィンドウで、[レイク管理] > [ライフサイクル管理] を選択します。
[実行履歴] タブをクリックして、すべての履歴実行アーカイブタスクをクエリし、実行ログを表示します。
タスク名をクリックして、タスク実行情報と実行ログを表示します。
テーブルの解凍
左側のナビゲーションウィンドウで、[メタデータ] > [メタデータ] を選択します。
[テーブル] タブをクリックし、テーブル名をクリックします。
[ストレージルール] タブをクリックします。 DLF プロダクトはテーブルの解凍をサポートしています。 [テーブルの解凍] をクリックして、ストレージタイプを標準ストレージに変換します。
コールドデータをホットデータに変換する場合は、以下のトピックを参照してください。