本文為您介紹在資料湖構建中如何快速使用DLF。
前提條件
在使用DLF前,已完成阿里雲帳號角色授權,且已開通DLF服務。詳情請參見授權並開通DLF。
說明授權和開通操作僅需在首次使用DLF時完成。
若使用RAM使用者管理Catalog,需滿足以下許可權要求:
管控API層面:RAM使用者需要具備AliyunDLFFullAccess許可權,或被授予Catalog相關的具體鑒權Action,詳情請參見RAM授權Action參考。
資料層面:僅主帳號,或被賦予super_administrator或admin角色,或被授予Catalog系統管理權限的RAM使用者,才具備建立Catalog的許可權。請參見配置資料許可權。
建立Catalog
您可以根據使用情境、資料規模、服務可靠性,以及預算等要求,配置合適的Catalog。
登入資料湖構建控制台。
在資料目錄列表頁面,單擊建立Catalog,配置以下資訊。
配置項
說明
Catalog名稱
必選,唯一標識,不可重名。
描述
可選,輸入描述資訊。
儲存類型
標準儲存。
儲存冗餘類型
可選以下兩種類型:
本地冗餘(預設):資料存放區在單可用性區域(AZ)。當該可用性區域不可用時,會導致相關資料不可訪問,推薦使用同城冗餘。
同城冗餘:同一地區(Region)內多可用性區域(AZ)冗餘機制,當某個可用性區域(AZ)不可用時,仍能保證資料可用性。
說明Catalog建立後,同城冗佘不可變更為本地冗餘。
相比本地冗餘,同城冗餘能夠提供更高的資料可用性,但價格也相對更高。對資料高可用性要求較高的情境,推薦使用同城冗餘。
更多關於Catalog的操作,請參見資料目錄。
資料入湖
您可以根據資料來源和同步類型,選擇使用Flink CDC、DataWorksData Integration等工具將未經處理資料同步到資料湖中。
湖資料分析
您可以根據業務需求,使用EMR Serverless Spark進行批讀批寫,使用全託管版Flink進行流式讀取與寫入,使用EMR Serverless Starrocks進行湖分析,挖掘湖中資料價值。