資料湖分析 - MaxCompute

實踐教程

文檔連結	簡介
MaxCompute湖上資料加工和多情境聯動實踐	通過MaxLake實現資料入湖入倉及多情境分析聯動，以車連網資料為例，通過車輛上報的GPS定位資訊分析行駛裡程和速度，並聯動多引擎滿足即時查詢報表、跨團隊協作與脫敏分享、AI訓練等應用情境，實現一份資料，多重價值。
基於DLF1.0+OSS讀取湖上CSV資料	通過配置DLF，將資料從OSS抽取到DLF中繼資料中，並使用MaxCompute的external schema進行資料湖聯邦查詢。該方案可以方便地進行資料分析和處理，並保證資料的可靠性和安全性。
基於DLF1.0+OSS讀取湖上Paimon資料	基於Flink建立Paimon DLF Catalog，讀取MySQL CDC資料並寫入OSS，進一步將中繼資料同步到DLF，進而使用MaxCompute的external schema進行資料湖聯邦查詢。
使用Schemaless Query方式讀取湖上Parquet資料	以E-MapReduce的Serverless Spark叢集為例，介紹在MaxCompute中如何使用Schemaless Query的方式讀取Spark SQL產生的Parquet檔案，並在計算完成後將結果通過UNLOAD命令傳回至OSS。
基於HMS+HDFS讀取Hadoop Hive資料	以E-MapReduce的Hive為例，介紹在MaxCompute中如何建立外部schema，並查詢Hadoop中的Hive表資料。
建立面向Hologres的中繼資料映射和資料同步	基於MaxCompute建立面向Hologres的中繼資料映射和資料同步。
使用外部項目基於FileSystem Catalog讀寫湖上Paimon資料	基於Flink建立Paimon Catalog並產生資料，MaxCompute根據Filesystem Catalog建立外部項目，從而直接讀取Paimon表資料。
（邀測）使用外部項目基於DLF讀寫湖上Paimon資料	基於Flink建立Paimon DLF Catalog，讀取MySQL CDC業務資料寫入DLF，進而使用MaxCompute的外部項目進行資料湖聯邦查詢分析，再將結果寫回到DLF。本文使用新版本DLF，區別於舊版DLF1.0。