建立Catalog以快速入門DLF-資料湖構建-阿里雲

本文為您介紹在資料湖構建中如何快速使用DLF。

前提條件

在使用DLF前，已完成阿里雲帳號角色授權，且已開通DLF服務。詳情請參見授權並開通DLF。
說明
授權和開通操作僅需在首次使用DLF時完成。
若使用RAM使用者管理Catalog，需滿足以下許可權要求：
- 管控API層面：RAM使用者需要具備AliyunDLFFullAccess許可權，或被授予Catalog相關的具體鑒權Action，詳情請參見RAM授權Action參考。
- 資料層面：僅主帳號，或被賦予super_administrator或admin角色，或被授予Catalog系統管理權限的RAM使用者，才具備建立Catalog的許可權。請參見配置資料許可權。

您可以根據使用情境、資料規模、服務可靠性，以及預算等要求，配置合適的Catalog。

在資料目錄列表頁面，單擊建立Catalog，配置以下資訊。

配置項	說明
Catalog名稱	必選，唯一標識，不可重名。
描述	可選，輸入描述資訊。
儲存類型	標準儲存。
儲存冗餘類型	可選以下兩種類型：本地冗餘（預設）：資料存放區在單可用性區域（AZ）。當該可用性區域不可用時，會導致相關資料不可訪問，推薦使用同城冗餘。同城冗餘：同一地區（Region）內多可用性區域（AZ）冗餘機制，當某個可用性區域（AZ）不可用時，仍能保證資料可用性。說明 Catalog建立後，同城冗佘不可變更為本地冗餘。相比本地冗餘，同城冗餘能夠提供更高的資料可用性，但價格也相對更高。對資料高可用性要求較高的情境，推薦使用同城冗餘。

更多關於Catalog的操作，請參見資料目錄。

您可以根據資料來源和同步類型，選擇使用Flink CDC、DataWorksData Integration等工具將未經處理資料同步到資料湖中。

您可以根據業務需求，使用EMR Serverless Spark進行批讀批寫，使用全託管版Flink進行流式讀取與寫入，使用EMR Serverless Starrocks進行湖分析，挖掘湖中資料價值。