本文為您介紹如何快速使用資料-湖構建(Data Lake Formation,DLF)。
前提條件
資料湖構建採用OSS作為統一資料湖位置,您需要註冊一個OSS的Bucket或指定OSS路徑作為資料湖位置。詳情請參見建立儲存空間。
控制台概覽
資料湖構建控制台概覽分為2個部分,左側為主要功能區,右側為產品主要資訊,協助您快速上手產品。
功能介紹
資料湖構建整合了中繼資料服務、許可權管理、湖管理和資料探索功能,為您提供統一的中繼資料和許可權安全管理以及一鍵式的資料探索能力。
中繼資料管理
中繼資料管理是構建高效資料湖的關鍵組成部分,通過集中化和系統化的中繼資料管理,能夠顯著提升資料資產的價值與可用性。您可以使用該功能管理資料湖中的資料目錄、資料庫和資料表。
建立資料目錄
登入資料湖構建控制台。
在左側功能表列,選擇。
單擊資料目錄頁簽,單擊建立資料目錄。
在輸入框中輸入以下內容,單擊確定。
目錄ID:必選,唯一標識,不可重名。
描述:可選,輸入描述資訊。
目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。
更多關於資料目錄的操作,請參見資料目錄。
建立資料庫
登入資料湖管理主控台。
在左側功能表列,選擇。
單擊資料庫頁簽,選擇目標資料目錄,單擊建立資料庫。
配置以下資料庫資訊,單擊確定。
所屬資料目錄:選擇所屬資料目錄。
資料庫名稱:輸入資料庫名稱。
資料庫描述:可選,輸入資料庫描述。
選擇路徑:輸入資料庫的位置。
建立資料表
建立完成資料庫後,單擊資料表頁簽,選擇目標資料目錄和庫名,單擊建立資料表。
配置以下資料表資訊,單擊確定。
資料表名稱:輸入資料表的名稱。
所屬資料目錄:選擇所屬資料目錄。
所屬資料庫:選擇資料目錄下的資料庫。
資料表描述:可選,輸入資料表描述。
資料存放區位置:選擇資料表中資料存放區的位置。
格式與序列化:選擇資料表的資料格式和輸出格式。
分割符:可選,當資料格式選擇CSV時,選擇資料表的分隔字元。
手動定義資料表的普通列、分區列,指定列名稱、資料類型、描述等資訊。
更多關於資料庫、資料表的操作,請參見資料庫表及函數。
中繼資料抽取
中繼資料抽取可以分析資料湖中特定格式的資料,並自動產生中繼資料資訊。詳情請參見中繼資料抽取。
中繼資料遷移
中繼資料遷移可以快速地將Hive Metastore的中繼資料遷移到資料湖構建(DLF)中。詳情請參見中繼資料遷移。
許可權管理
資料湖構建(DLF)的許可權體系主要分為RAM許可權和DLF資料許可權控制兩大類。如果您要訪問DLF的頁面或資料,一般都需要通過這兩層許可權校正,才可以正確的訪問到資料資源。
湖管理
湖管理組件括Location託管、儲存概覽、生命週期管理、湖格式管理以及儲存許可權等資料湖管理能力,在Location託管後,這些功能將為您提供全面的資料湖管理支援。
通過Location託管功能,您可以將儲存在OSS中的資料交由資料湖構建(DLF)進行管理和分析。更多詳情,請參見Location託管。
儲存概覽提供了來源資料分析和Location分析,協助您快速掌握當前儲存資源的使用狀況及潛在問題,便於及時採取最佳化措施。更多詳情,請參見儲存概覽。
配置資料湖內的資料管理規則,請參見生命週期管理。
配置湖格式最佳化策略,請參見湖格式管理。
最佳實務
DLF提供了資料湖內統一的中繼資料管理和許可權管理功能。通過與E-MapReduce、Flink和MaxCompute結合,DLF支援實現高效的中繼資料抽取、遷移以及資料入湖解決方案。