データレイクハウスソリューションの構築 - MaxCompute

MaxCompute は、データレイクの柔軟性とデータウェアハウスのエンタープライズクラスのデプロイメントを組み合わせたデータ管理プラットフォームを構築できるデータレイクハウスソリューションを提供します。これを使用して、Object Storage Service (OSS) または Hadoop クラスターに保存されているオープンフォーマットデータに対して SQL分析を実行できます。

このデータレイクハウスソリューションは、パブリックプレビュー中です。

機能

MaxCompute データレイクハウスソリューションでは、次のことが可能です。

データが配置されている場所でクエリを実行 — データを MaxCompute に移動することなく、OSS 内のデータに対して直接 SQL を実行できます。
オープンフォーマットの使用 — Delta Lake、Apache Hudi、AVRO、CSV、JSON、Parquet、ORC ファイルをネイティブに処理します。
メタデータ管理の統合 — 外部データレイクスキーマを MaxCompute 外部プロジェクトにマッピングし、一貫したガバナンスを実現します。
既存インフラストラクチャの活用 — データを移行することなく、データセンター、クラウド仮想マシン (VM)、または E-MapReduce (EMR) の Hadoop クラスターに接続できます。

構築方法

MaxCompute は、データレイクハウスソリューションにおけるデータウェアハウスとして機能します。データとメタデータの保存場所に基づいて、構築方法を選択してください。

MaxCompute、DLF、OSS を使用したデータレイクハウスの構築

使用する状況: データが OSS にあり、フルマネージドのクラウドネイティブなメタデータレイヤーが必要な場合。

すべてのデータレイクスキーマは Data Lake Formation (DLF) に保存されます。MaxCompute は DLF のメタデータ管理機能を使用して、OSS 内の半構造化データを直接クエリします。Delta Lake、Apache Hudi、AVRO、CSV、JSON、Parquet、ORC 形式をサポートしています。

セットアップ手順については、「MaxCompute、DLF、OSS を使用したデータレイクハウスの構築」をご参照ください。

MaxCompute と Hadoop を使用したデータレイクハウスの構築

使用する状況: オンプレミス、クラウド VM、または Alibaba Cloud E-MapReduce (EMR) に既存の Hadoop クラスターがあり、データを移行せずに MaxCompute からそのデータをクエリしたい場合。

MaxCompute を Hadoop クラスターが実行されている仮想プライベートクラウド (VPC) に接続します。MaxCompute は Hive メタストアに直接アクセスし、メタデータを MaxCompute 外部プロジェクトにマッピングします。

セットアップ手順については、「MaxCompute と Hadoop を使用したデータレイクハウスの構築」をご参照ください。

制限事項

サポートされているリージョン: 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深セン)、中国 (香港)、シンガポール、ドイツ (フランクフルト)。
コロケーション要件: MaxCompute は、DLF および OSS と同じリージョンにデプロイする必要があります。

次のステップ

他のユーザーに外部プロジェクトの権限を付与する — 外部プロジェクトの所有者は、その作成に使用されたアカウントです。追加のユーザーには別途アクセスを付与してください。
SQL ステートメントを使用して外部プロジェクトを管理する — 設定後に SQL を使用して外部プロジェクトを管理します。