MaxCompute は、データレイクとデータウェアハウス間の障壁を打ち破るデータレイクハウスソリューションを提供します。このソリューションは、データレイクの柔軟性と豊富なエコシステムを、データウェアハウスのエンタープライズグレードのデプロイメント機能と組み合わせることで、統合されたデータ管理プラットフォームを構築できます。
適用範囲
データレイクハウスソリューション 1.0 は、次のリージョンでのみ利用可能です: 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深圳)、中国 (香港)、シンガポール、およびドイツ (フランクフルト)。
実装方法
MaxCompute データレイクハウスソリューションは、データウェアハウスとデータレイクを統合します。次の実装方法がサポートされています:
MaxCompute、Data Lake Formation、および Object Storage Service を使用してデータレイクハウスを構築する: データレイクのメタデータ (スキーマ) は Data Lake Formation (DLF) に保存されます。MaxCompute は DLF のメタデータ管理機能を使用して、Object Storage Service (OSS) 内の半構造化フォーマットのデータ処理を改善します。サポートされているフォーマットには、Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、および ORC が含まれます。
MaxCompute と Hadoop を使用してデータレイクハウスを構築する: このメソッドは、オンプレミスのデータセンター、クラウドベースの仮想マシン、または Alibaba Cloud E-MapReduce を介したデプロイメントをサポートします。MaxCompute と Hadoop プラットフォームの VPC が接続されると、MaxCompute は Hive メタデータサービスに直接アクセスできます。その後、メタデータは MaxCompute の外部プロジェクトにマッピングされます。
リファレンス
外部プロジェクトが作成されると、そのプロジェクトを作成したアカウントがその中のテーブルを所有します。他のユーザーに権限を付与するには、「外部プロジェクトのユーザーと権限」をご参照ください。
SQL を使用して外部プロジェクトを管理する方法については、「SQL を使用して外部プロジェクトを管理する」をご参照ください。
Spark on MaxCompute は、データレイクハウス内の外部データソースへのアクセスをサポートします。データ処理ジョブの環境を Spark から MaxCompute に変更するには、「Spark からデータレイクハウスの外部データソースにアクセスする」をご参照ください。
分散ファイルシステムとデータストレージソリューションについては、「MaxCompute 外部ボリュームを使用して非構造化データを処理する」をご参照ください。