MaxCompute は、データレイクの柔軟性とデータウェアハウスのエンタープライズクラスのデプロイメントを組み合わせたデータ管理プラットフォームを構築できるデータレイクハウスソリューションを提供します。これを使用して、Object Storage Service (OSS) または Hadoop クラスターに保存されているオープンフォーマットデータに対して SQL分析を実行できます。
このデータレイクハウスソリューションは、パブリックプレビュー中です。
機能
MaxCompute データレイクハウスソリューションでは、次のことが可能です。
データが配置されている場所でクエリを実行 — データを MaxCompute に移動することなく、OSS 内のデータに対して直接 SQL を実行できます。
オープンフォーマットの使用 — Delta Lake、Apache Hudi、AVRO、CSV、JSON、Parquet、ORC ファイルをネイティブに処理します。
メタデータ管理の統合 — 外部データレイクスキーマを MaxCompute 外部プロジェクトにマッピングし、一貫したガバナンスを実現します。
既存インフラストラクチャの活用 — データを移行することなく、データセンター、クラウド仮想マシン (VM)、または E-MapReduce (EMR) の Hadoop クラスターに接続できます。
構築方法
MaxCompute は、データレイクハウスソリューションにおけるデータウェアハウスとして機能します。データとメタデータの保存場所に基づいて、構築方法を選択してください。
MaxCompute、DLF、OSS を使用したデータレイクハウスの構築
使用する状況: データが OSS にあり、フルマネージドのクラウドネイティブなメタデータレイヤーが必要な場合。
すべてのデータレイクスキーマは Data Lake Formation (DLF) に保存されます。MaxCompute は DLF のメタデータ管理機能を使用して、OSS 内の半構造化データを直接クエリします。Delta Lake、Apache Hudi、AVRO、CSV、JSON、Parquet、ORC 形式をサポートしています。
セットアップ手順については、「MaxCompute、DLF、OSS を使用したデータレイクハウスの構築」をご参照ください。
MaxCompute と Hadoop を使用したデータレイクハウスの構築
使用する状況: オンプレミス、クラウド VM、または Alibaba Cloud E-MapReduce (EMR) に既存の Hadoop クラスターがあり、データを移行せずに MaxCompute からそのデータをクエリしたい場合。
MaxCompute を Hadoop クラスターが実行されている仮想プライベートクラウド (VPC) に接続します。MaxCompute は Hive メタストアに直接アクセスし、メタデータを MaxCompute 外部プロジェクトにマッピングします。
セットアップ手順については、「MaxCompute と Hadoop を使用したデータレイクハウスの構築」をご参照ください。
制限事項
サポートされているリージョン: 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深セン)、中国 (香港)、シンガポール、ドイツ (フランクフルト)。
コロケーション要件: MaxCompute は、DLF および OSS と同じリージョンにデプロイする必要があります。
次のステップ
他のユーザーに外部プロジェクトの権限を付与する — 外部プロジェクトの所有者は、その作成に使用されたアカウントです。追加のユーザーには別途アクセスを付与してください。
SQL ステートメントを使用して外部プロジェクトを管理する — 設定後に SQL を使用して外部プロジェクトを管理します。