データレイク分析 - MaxCompute - Alibaba Cloud ドキュメントセンター

チュートリアル

ドキュメントリンク	概要
MaxCompute を使用したデータレイクでのデータ変換とマルチシナリオオーケストレーション	MaxLake を使用してデータレイクとウェアハウスにデータを取り込み、マルチシナリオ分析を可能にします。このチュートリアルでは、モノのインターネット (IoV) のデータを使用して、車両の GPS 情報から走行距離と速度を分析する方法を示します。また、複数のエンジンをオーケストレーションして、リアルタイムクエリレポート、チーム間のコラボレーション、非機密化データ共有、AI トレーニングをサポートする方法についても説明します。このメソッドにより、データの単一コピーから複数の価値を引き出すことができます。
DLF 1.0 と OSS を使用したデータレイクからの CSV データの読み取り	Data Lake Formation (DLF) を設定して、Object Storage Service (OSS) からメタデータを抽出します。次に、MaxCompute の外部スキーマを使用して、データレイクに対してフェデレーテッドクエリを実行します。このソリューションは、データの信頼性とセキュリティを確保しながら、データ分析と処理を簡素化します。
DLF 1.0 と OSS を使用したデータレイクからの Paimon データの読み取り	Flink を使用して Paimon DLF カタログを作成します。MySQL Change Data Capture (CDC) データを読み取り、OSS に書き込みます。次に、メタデータを DLF に同期します。最後に、MaxCompute の外部スキーマを使用して、データレイクに対してフェデレーテッドクエリを実行します。
スキーマレスクエリを使用したデータレイクからの Parquet データの読み取り	このチュートリアルでは、E-MapReduce のサーバーレス Spark クラスターを例として使用します。MaxCompute でスキーマレスクエリを使用して、Spark SQL によって生成された Parquet ファイルを読み取る方法を示します。計算が完了したら、UNLOAD コマンドを使用して結果を OSS に書き戻すことができます。
HMS と HDFS を使用した Hadoop Hive データの読み取り	このチュートリアルでは、E-MapReduce 上の Hive を例として使用します。MaxCompute で外部スキーマを作成し、Hadoop の Hive テーブルデータをクエリする方法を示します。
Hologres のメタデータマッピングとデータ同期の作成	このチュートリアルでは、MaxCompute を使用して Hologres のメタデータマッピングとデータ同期を作成する方法を説明します。
外部プロジェクトと FileSystem Catalog を使用したデータレイク上の Paimon データの読み取りと書き込み	Flink を使用して Paimon カタログを作成し、データを生成します。次に、MaxCompute を使用して FileSystem Catalog に基づく外部プロジェクトを作成し、Paimon テーブルデータを直接読み取ります。
(招待プレビュー) 外部プロジェクトを使用した DLF を利用したデータレイク上の Paimon データの読み取りと書き込み	Flink を使用して Paimon DLF カタログを作成します。MySQL CDC のビジネスデータを読み取り、DLF に書き込みます。次に、MaxCompute の外部プロジェクトを使用して、データレイク上でフェデレーテッドクエリと分析を実行し、結果を DLF に書き戻します。このトピックでは、以前の DLF 1.0 とは異なる、新バージョンの DLF を使用します。