MaxCompute提供了多種資料湖分析方案,基於多種對接資料湖的功能和方案,打破資料湖與資料倉儲割裂的體系,融合資料湖的靈活性、豐富的多引擎生態與資料倉儲的企業級能力,助力構建資料湖和資料倉儲相融合的資料管理平台。
資料湖分析和湖倉開放架構
資料倉儲更強調對進入數倉的結構化、半結構化資料的管理和約束,並依賴強管理能力,獲得更好的計算效能和更正常化的管理能力。
資料湖更強調資料存放區的開放性和資料格式的通用性,支援多種引擎按需生產或消費資料,為保障靈活性只提供弱管理能力,可以相容非結構化資料,並支援後建Schema的使用方式,是一種更靈活的資料管理方式。
因此MaxCompute提出湖倉一體解決方案,融合了資料倉儲和資料湖能力。
資料湖分析
MaxCompute支援對接資料湖進行資料湖分析,提供以下能力:
作為高效能高性價比的批處理計算引擎在湖上和其他引擎基於一份資料協同計算;
將數倉的管理能力延伸到資料湖上,使資料湖更安全可控;
將高價值資料向資料倉儲沉澱;
基於資料倉儲與包括資料湖、資料庫等在內的多種外部資料源進行倉內倉外資料聯邦計算。
湖倉開放架構
MaxCompute也是巨量資料存算分離架構,其開放儲存、開放中繼資料和多引擎架構構成了一套湖倉開放架構,提供以下能力:
湖上中繼資料發現和管理;
對外部提供數倉的中繼資料和MaxCompute管理的湖表中繼資料統一視圖;
開放MaxCompute儲存,支援MaxCompute引擎和外部三方引擎消費MaxCompute資料;
基於中繼資料管理服務和資料服務,控制多引擎讀寫MaxCompute湖倉架構下資料的行為,例如控制不同使用者身份使用多個引擎操作同一份資料湖上的資料的許可權,協同寫入資料的任務,保證任何引擎操作資料後元資訊都可以被其他引擎感知,支援讀出的資料符合平台統一定義的規則(例如資料脫敏),以及支援對開放資料進行自動維護和最佳化(例如自動compact),便於引擎更高效率的使用資料湖資料。
詳見湖倉開放架構。
MaxCompute的資料湖分析功能體系
MaxCompute對資料湖分析和聯邦計算的能力按照對外部資料的管理能力由弱到強排列,包括Schemaless Query、外部表格、託管湖表,而湖上的中繼資料管理服務不只在MaxCompute,還有如DLF、檔案系統catalog層析規範等。因此,又推出了基於外部元資訊映射外部資料源進行資料分析和處理的External Schema和External Project方案。
Schemaless Query
Schemaless Query(免定義查詢)支援MaxCompute SQL引擎無需預先定義OSS中Parquet、CSV、JSON等資料的Schema和分區資訊,而是通過解析範例資料自動擷取元資訊(如Parquet檔案的Schema、CSV表頭、JSON自描述資訊),直接存取OSS目錄中的資料。查詢結果可以匯出至OSS、寫入內部表,也可以作為子查詢嵌入SQL運算,從而便捷地操作湖上資料。
外部表格
外部表格通過DDL語句定義訪問MaxCompute外部資料所需的表名、Schema、表屬性、許可權、位置和協議等資訊,這些資訊記錄在MaxCompute中繼資料中。SQL引擎基於這些元資訊,根據不同的外部表格式採用對應的方式串連外部資料源,實現外部資料的元資訊擷取與更新,以及資料的讀取、計算和寫出。
湖表
為了進一步保證資料湖上的資料更符合管理要求,MaxCompute基於開放的儲存服務OSS、開放的湖格式Iceberg和MaxCompute 開放中繼資料服務,資料讀寫服務Storage API和開源引擎Connector,提供了MaxCompute管理體系下的湖表功能。
湖表的Schema和分區等資訊由湖格式檔案Iceberg提供,可以提供更靈活的Schema evolution能力;
湖表元資訊本身儲存在MaxCompute中繼資料服務中,MaxCompute引擎和第三方引擎讀取資料可以遵守中繼資料服務統一定義的規則,寫入資料也可以保證中繼資料更新可以被其他基於中繼資料服務的引擎立即感知;
湖表管理能力還包括湖倉統一許可權管理和湖表底層檔案營運管理。如果需要原生的開放性,MaxCompute湖表後續還提供原生的iceberg rest catalog中繼資料服務和唯讀直接堆積OSS的iceberg快照檔案訪問能力。
詳情參見MaxCompute管理的Iceberg表(beta),此功能於北京時間2026年5月7日在上海和德國region邀測發布。
外部模式和外部項目
外部模式和外部項目與外部表格最大的不同在於:外部資料的元資訊不在MaxCompute內部儲存和維護,而是從外部資料源即時擷取。使用者需要先建立管理對象,定義與外部中繼資料服務、資料服務或資料庫執行個體的訪問方式。MaxCompute通過該管理對象即時擷取外部中繼資料,再通過外部模式或外部項目的映射機制,直接存取外部資料源Catalog、Database或Schema範圍內的全部表。
功能和基本概念

網路連接
詳情請參見網路開通流程中Networklink的相關說明。MaxCompute可以通過網路連接訪問VPC網路中的資料來源,例如EMR執行個體,RDS執行個體(準備中)。DLF(Data Lake Formation,資料湖構建)、OSS(Object Storage Service)和Hologres位於雲產品互連網絡中,MaxCompute無需設定網路連接對象Networklink即可直接存取其中的資料。
網路連接同時支援外部表格、需要訪問VPC網路中資料來源的外部模式和外部項目。
外部資料源(Foreign Server)
包含了中繼資料和資料訪問的資訊,同時包含訪問資料來源系統的身份認證資訊,位置資訊和連線協定說明等。通過外部資料源,MaxCompute才可以串連和使用資料來源的中繼資料和資料。外部資料源是租戶面的管理對象,由租用戶系統管理員定義。
外部資料源支援外部模式和外部項目。後續Foreign Server會逐步過渡為Connection對象,從租戶面對象調整為資料面對象,支援湖表、外部模式,而之前依賴Foreign Server的外部項目則把Foreign Server的資訊轉存到外部項目上,而不再依賴新的Connection對象,這一過渡過程使用者並不感知。
外部模式(External Schema)
外部模式是MaxCompute數倉專案中一種特殊Schema,如上圖所示,可以映射資料來源的Database(DLF_lagecy或Hive情境)或Schema(Hologres情境)層級,並可直接存取對端Database或Schema範圍內的表和資料。這種並沒有在MaxCompute中繼資料中建立,只是通過外部Schema映射至對端資料來源的表被稱為聯邦外表(Mounted Table)。
聯邦外表在MaxCompute內不儲存中繼資料資訊,而是由MaxCompute通過外部資料來源物件中的中繼資料服務即時擷取。使用者查詢時無需在數倉中通過DDL語句建立外部表格,可直接以專案名稱和外部模式名稱作為命名空間,引用資料來源原表名的方式進行操作。資料來源表結構或資料發生變化時,聯邦外表能夠即時反映資料來源表的最新狀態。外部Schema映射的資料來源層次由外部資料源定義的層次與資料來源中表層次之間的系統層次決定。外部資料源定義的層次由認證身份能訪問的資料來源層次決定。
外部項目(External Project)
在湖倉一體1.0方案中,外部項目是兩層模式,和外部模式一樣映射一個資料來源的Database(DLF_lagecy或Hive情境)或Schema(Hologres情境)層級,且需要依賴一個數倉專案作為任務運行環境才可以讀取外部資料並計算。但是以專案層級映射資料來源Database或Schema會導致外部項目數量過多,且MaxCompute後續建議構建的專案為三層模式,便於和外部資料源三層的Catalog層析對應,而兩層的湖倉一體1.0的外部項目難以和新的三層數倉專案共同使用,所以MaxCompute會逐步收斂湖倉一體1.0的外部項目,存量使用者可以將其遷移到外部Schema上。遷移方案詳情參見:湖倉一體1.0外部項目遷移為湖倉一體2.0外部模式方案。
在資料湖分析中,新的外部項目直接映射對端三層模式資料來源Catalog(DLF情境)或Database(Hologres情境),並直接可見DLF Catalog之下的Database,或Hologres Database之下的Schema ,這層在MaxCompute中也不通過建立而是直接映射而來,稱為Mounted Schema,再以聯邦外表的方式訪問資料來源表。
資料來源類型 | 外部資料源層次 | 外部Schema映射層次 | 外部項目映射層次 | 湖倉一體1.0外部項目(下線中)映射層次 | 認證方式 |
DLF_legacy+OSS | Region層級DLF服務和OSS服務 | DLF的Catalog.Database | 不支援 | DLF的Catalog.Database | RAMRole |
Hive+HDFS | EMR執行個體 | Hive的Database | 不支援 | Hive的Database | 免認證方式 |
Hologres | Hologres執行個體的Database | Schema | - | 不支援 | RAMRole |
- | Database | 不支援 | SLR+目前使用者身份認證 | ||
DLF | Region層級DLF服務 | 不支援 | DLF的Catalog | 不支援 | SLR+目前使用者身份認證 |
Filesystem Catalog | OSS上Paimon Catalog層級目錄 | 不支援 | Paimon Catalog層級目錄解析的Catalog | 不支援 | RAMRole |
不同資料來源的認證方式有多種類型,MaxCompute會在後續版本逐步提供多種認證方式,例如訪問Hologres使用目前使用者身份方式、訪問Hive使用Kerberos認證方式等。