このトピックでは、Data Lake Formation (DLF) の使用を開始する方法について説明します。
前提条件
DLF をセットアップしていること。
説明アクティベーションと権限付与は、DLF 環境を初めてセットアップするときに一度だけ実行されます。
RAM ユーザーとしてカタログを管理するには、次の権限が必要です。
API 権限:
AliyunDLFFullAccess権限ポリシー、またはカタログ関連の権限付与アクションを含むポリシーが割り当てられている必要があります。 詳細については、「RAM 権限付与アクションリファレンス」をご参照ください。データ権限:
super_administratorまたはadminシステムロール、あるいはカタログ関連の権限を持つカスタムロールが付与されている必要があります。 詳細については、「データ権限の設定」をご参照ください。
カタログの作成
ユースケース、データボリューム、サービスの信頼性、予算要件に基づいてカタログを作成します。
DLF コンソールにログインします。
[カタログ] ページで、[カタログの作成] をクリックし、次のパラメーターを設定します。
設定項目
説明
カタログ名
カタログの一意の名前を入力します。
説明
カタログの説明を入力します。
ストレージタイプ
[標準ストレージ] に固定されています。
ストレージ冗長タイプ
データの冗長ポリシーを選択します:
LRS (ローカル冗長ストレージ): (デフォルト) データを単一のゾーンに保存します。 ゾーンが利用できない場合、データにアクセスできなくなります。
ZRS (ゾーン冗長ストレージ): 可用性を高めるために、リージョン内の複数のゾーンにデータを複製します。
説明カタログの作成後は、冗長タイプを ZRS から LRS に変更することはできません。
ZRS はより高いデータ可用性を提供しますが、コストも高くなります。
[利用規約] を読んで選択し、[カタログの作成] をクリックします。
詳細については、「カタログの管理」をご参照ください。
データレイクハウスへのデータ取り込み
Flink CDC や DataWorks のデータ統合などのツールを使用して、生データをデータレイクハウスに同期します。
データレイクハウス内のデータの分析
EMR Serverless Spark を使用してバッチ読み書き操作を実行し、Realtime Compute for Apache Flink を使用してデータをストリーム読み書きし、EMR Serverless StarRocks を使用してデータからインサイトを抽出します。