MaxCompute提供湖倉一體方案,該方案可以打破資料湖與資料倉儲割裂的體系,並融合資料湖的靈活性、生態豐富能力與資料倉儲的企業級部署能力,助力構建資料湖和資料倉儲相融合的資料管理平台。
適用範圍
僅華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、新加坡和德國(法蘭克福)地區支援構建湖倉一體1.0能力。
構建方式
MaxCompute湖倉一體方案通過資料倉儲和資料湖共同實現。當前支援的湖倉一體構建方式如下:
通過MaxCompute、資料湖構建DLF和Object Storage Service構建湖倉一體:資料湖的中繼資料(Schema)全部位於DLF中。MaxCompute可以利用DLF對OSS中繼資料的管理能力,提升對OSS半結構化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)資料的處理能力。
通過MaxCompute與Hadoop構建湖倉一體:該方式包括本地機房搭建、雲端式上虛擬機器搭建以及通過阿里雲E-MapReduce搭建等。當MaxCompute與Hadoop平台所在的VPC地區網路開通後,MaxCompute可以直接存取Hive中繼資料服務,並將中繼資料資訊映射到MaxCompute的外部項目(External Project)中。
相關文檔
在外部項目建立後,外部項目中表的所有者歸屬於建立該外部項目的帳號,如果需要授權其他使用者操作許可權,請參見外部項目使用者以及許可權操作。
在構建湖倉一體時,可使用SQL方式執行外部項目管理,詳情請參見使用SQL管理外部項目。
Spark on MaxCompute目前已支援訪問湖倉一體外部資料源,若想將資料處理作業的環境從Spark更換為MaxCompute,詳情請參見Spark訪問湖倉一體外部資料源。
Distributed File System和資料存放區方案,請參見利用MaxCompute External Volume處理非結構化資料。