資料目錄提供統一介面,方便管理和操作Hive中繼資料。本文將為您介紹如何在資料目錄中建立和管理表資料對象。
進入Hive資料目錄頁面
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
單擊左側導覽列中的
表徵圖,在資料目錄的分類樹中單擊Hive,即可進入Hive資料目錄管理頁面。
建立Hive資料目錄
在Hive資料目錄管理頁面,您可將已有的Hive資料來源作為資料集添加到資料目錄列表。
單擊Hive資料目錄右側的
表徵圖,進入添加執行個體頁面。在DataWorks資料來源頁簽將Hive資料來源添加到資料目錄列表。
如需管理當前工作空間中新版資料開發綁定的EMR計算資源,可在DataWorks資料來源頁簽找到對應的EMR叢集資料來源,單擊操作欄的添加按鈕完成添加。
也可在DataWorks資料來源頁簽勾選多個Hive資料來源,單擊列表下方的大量新增按鈕進行大量新增。
管理Hive資料目錄
您可以在Hive資料目錄中添加和管理Hive表。
建立表
您可依次單擊Hive資料目錄左側的
表徵圖,找到資料庫下面的表。單擊表右側的
表徵圖,進入建立表頁面。您可通過以下任一方式產生表基礎資訊和欄位資訊。
Copilot建表:
單擊頁面上方工具列中的Copilot建表,進入Copilot Chat功能介面。
用自然語言輸入建表指令(例如:
建立使用者表)。單擊產生並替換,系統會根據您輸入的指令,產生預設的表名及欄位資訊。
如表名及欄位符合預期,您可單擊接受。
說明如需修改部分表資訊,單擊接受後,可手動對系統產生的表資訊進行編輯。
手動建表:
根據參數說明資訊建立表。
參數
配置說明
基礎資訊
自訂表名、表說明等資訊。
欄位資訊
編輯欄位和欄位註解資訊。
手動編輯:單擊欄位資訊列表上方的插入按鈕,手動指定插入行數後,即可編輯欄位名、欄位類型等資訊。
Copilot智能編輯:單擊欄位資訊列表上方的產生欄位或產生欄位描述,系統可根據您設定的表名及表說明資訊,產生相關欄位及描述說明。
(可選)配置分區資訊。
如需建立分區表,可在分區欄位位置設定好所需的分區欄位行數(支援多分區),單擊插入。根據業務需求,在分區欄位列表中設定分區欄位名、欄位類型等相關資訊。
(可選)配置進階設定。
參數
配置說明
表類型
僅支援內部表。
儲存位置
可自訂表格的儲存目錄。例如
/user/hive/warehouse/hive_work。儲存格式
支援將儲存格式設定為CSV、PARQUET、ORC、AVRO、JSON、SELE_DEFINE格式。系統會根據所選的儲存格式,自動定義資料的輸入、輸出格式以及序列化和還原序列化方式。
CSV:以逗號分隔的文字檔,適合簡單資料結構。
PARQUET:列式儲存格式,壓縮率高,適合巨量資料分析。
ORC:最佳化的列式儲存格式,效能優異,支援複雜資料類型。
AVRO:支援模式演化的二進位格式,適合動態資料結構。
JSON:支援嵌套結構,適合半結構化資料。
SELE_DEFINE:允許使用者自訂序列化和還原序列化邏輯。
配置完成後,單擊上方工具列中的發布即可完成建表。
管理表
在Hive資料目錄建立表後,您可依次單擊Hive資料目錄左側的
表徵圖,單擊表進入表頁面。
查看錶。
在表頁面查看所有表基本資料,也可單擊具體表名查看錶明細資訊、基礎資訊和DDL資訊。
刪除表。
在表頁面找到您所需刪除的表名,單擊操作欄中的刪除。
重要刪除後無法恢複,請謹慎操作。
查看移除Hive資料目錄
如後續無需使用Hive資料目錄,可查看移除對應Hive資料目錄。
查看資料目錄。
將Hive資料來源添加到Hive資料目錄後,您可單擊Hive資料目錄左側的
表徵圖,查看已添加的Hive資料來源。按一下滑鼠對應的Hive資料來源,即可查看該Hive執行個體中的所有資料庫資訊。
解除綁定專案。
如無需再管理某個Hive資料目錄,可滑鼠右鍵對應的Hive資料目錄,在彈框中選擇解除綁定資料目錄。