MaxCompute は、管理オブジェクトを作成できるデータレイク分析ソリューションを提供します。これらのオブジェクトは、外部データソースのメタデータとデータアクセス方法を定義します。外部スキーマのマッピングメカニズムを使用することで、外部データソースのデータベースまたはスキーマ内のすべてのテーブルに直接アクセスできます。このソリューションは、データレイクとデータウェアハウスの間の障壁を取り除きます。データレイクの柔軟性と豊富なマルチエンジンエコシステムを、データウェアハウスのエンタープライズレベルの機能と組み合わせます。これにより、統合されたデータ管理プラットフォームを構築できます。この機能はパブリックプレビューです。
データウェアハウスとデータレイク
カテゴリ | 機能 |
データウェアハウス | データウェアハウスは、構造化データと半構造化データの管理と制約を重視します。強力な管理に依存して、より優れたコンピューティングパフォーマンスと、より標準化された管理機能を実現します。 |
データレイク | データレイクは、オープンなデータストレージと共通のデータ形式を重視します。必要に応じてデータを生成または消費する複数のエンジンをサポートします。柔軟性を確保するために、弱い管理機能のみを提供します。非構造化データと互換性があり、スキーマオンリードのアプローチをサポートし、より柔軟なデータ管理方法を提供します。 |
MaxCompute データウェアハウス
MaxCompute は、サーバーレスアーキテクチャに基づくクラウドネイティブなデータウェアハウスです。以下の操作を実行できます。
MaxCompute を使用してデータウェアハウスをモデリングします。
抽出、変換、ロード (ETL) ツールを使用して、定義されたスキーマを持つモデル化されたテーブルにデータをロードして保存します。
標準の SQL エンジンを使用してデータウェアハウス内の大量のデータを処理し、Hologres OLAP エンジンを使用してデータを分析します。
MaxCompute のデータレイクとフェデレーテッドクエリのシナリオ
データレイクのシナリオでは、データはレイク内に存在し、さまざまなエンジンによって生成または消費されます。MaxCompute コンピューティングエンジンは、これらのエンジンの1つとして機能し、データを処理および使用できます。この場合、MaxCompute は、データレイクの上流ソースによって生成されたデータを読み取り、さまざまな主流のオープンソースデータ形式と互換性を持ち、そのエンジン内で計算を実行し、下流のワークフローのためにデータを生成する必要があります。
高価値データを集約する安全で高性能、かつコスト効率の高いデータウェアハウスとして、MaxCompute はデータレイクからメタデータとデータを取得する必要もあります。これにより、外部データに対するエンジン内計算と、内部データとのフェデレーテッドクエリが可能になり、価値を抽出してデータウェアハウスに統合できます。
データレイクに加えて、データウェアハウスとしての MaxCompute は、Hadoop や Hologres などの他のさまざまな外部データソースからデータを取得し、内部データとのフェデレーテッドクエリを実行する必要もあります。フェデレーテッドクエリのシナリオでは、MaxCompute は外部システムのメタデータとデータの読み取りもサポートする必要があります。
MaxCompute データレイク分析
MaxCompute データレイク分析は、MaxCompute コンピューティングエンジン上に構築されています。相互接続されたクラウドプロダクトネットワークを介して、Alibaba Cloud のメタデータまたはストレージサービスへのアクセスをサポートします。また、専用回線を介して VPC 内の外部データソースへのアクセスもサポートします。この機能により、外部データソースのメタデータとデータアクセス方法を定義する管理オブジェクトを作成できます。External Schema は外部のデータベースまたはスキーマにマッピングでき、その範囲内のすべてのテーブルに直接アクセスできます。

ネットワーク接続
Networklink の詳細については、「ネットワーク接続フロー」をご参照ください。MaxCompute は、ネットワーク接続を使用して、E-MapReduce (EMR) クラスターや ApsaraDB RDS インスタンス (近日提供予定) などの VPC 内のデータソースにアクセスできます。Data Lake Formation (DLF)、Object Storage Service (OSS)、および Hologres は、クラウドサービスの相互接続ネットワーク内に配置されています。MaxCompute は、Networklink を設定することなく、これらのサービス内のデータに直接アクセスできます。
Foreign Server
Foreign Server には、データソースシステムの認証情報、ロケーション情報、接続プロトコルの詳細など、メタデータとデータアクセスのための情報が含まれています。Foreign Server は、テナント管理者が定義するテナントレベルの管理オブジェクトです。
プロジェクトレベルのテナントリソースアクセス制御機能が有効になっている場合、テナント管理者は、外部データソースを使用するプロジェクトにアタッチします。その後、プロジェクト管理者はポリシーを使用して、プロジェクト内のユーザーに外部データソースを使用する権限を付与します。
External Schema
External Schema は、MaxCompute データウェアハウスプロジェクトにおける特殊なタイプのスキーマです。図に示すように、データソースのデータベースまたはスキーマにマッピングできます。これにより、そのデータベースまたはスキーマ内のテーブルとデータに直接アクセスできます。External Schema を介して外部データベースにマッピングされるテーブルは、フェデレーテッド外部テーブルと呼ばれます。
フェデレーテッド外部テーブルは、MaxCompute にメタデータを保存しません。代わりに、MaxCompute は Foreign Server オブジェクトで指定されたグローバルメタサービスからリアルタイムでメタデータを取得します。クエリを実行する際、DDL 文を使用してデータウェアハウスに外部テーブルを作成する必要はありません。プロジェクト名と External Schema 名を名前空間として使用し、データソースから元のテーブル名を直接参照できます。データソースのテーブルスキーマまたはデータが変更されると、その変更はフェデレーテッド外部テーブルに即座に反映されます。External Schema がマッピングするデータソースレベルは、Foreign Server で定義されたレベルとデータソースのテーブル階層という2つの要因に依存します。Foreign Server で定義されたレベルは、認証 ID のアクセス権限によって決まります。
External Project
データレイクハウスソリューション 1.0 では、External Project は2層モデルを使用していました。External Schema と同様に、データソースのデータベースまたはスキーマにマッピングされ、外部データを読み取って計算するためにデータウェアハウスプロジェクトが必要でした。しかし、External Project は高レベルのオブジェクトでした。このアプローチは多くの External Project を生み出しました。また、データウェアハウスプロジェクトの3層モデルとも互換性がありませんでした。MaxCompute は、データレイクハウスソリューション 1.0 の External Project を段階的に廃止します。既存のユーザーは External Schema に移行できます。
データレイク分析では、External Schema を使用して、データレイクハウスソリューション 1.0 の External Project のすべての機能を取得できます。External Schema は、3層モデルのデータソースのカタログまたはデータベースに直接マッピングします。これにより、DLF カタログ配下のデータベースや Hologres データベース配下のスキーマを直接可視化できます。その後、データソースのテーブルにフェデレーテッド外部テーブルとしてアクセスできます。
データソースタイプ | 外部データソース階層 | External Schema マッピングレベル | データレイクハウス 2.0 External Project マッピングレベル | データレイクハウスソリューション 1.0 External Project (廃止予定) マッピングレベル | 認証方式 |
DLF+OSS | リージョンレベルの DLF および OSS サービス | DLF Catalog.Database | DLF Catalog | DLF Catalog.Database | RAMRole |
Hive+HDFS | EMR インスタンス | Hive データベース | サポートされていません | Hive データベース | 認証なし |
Hologres | Hologres インスタンスのデータベース | スキーマ | データベース | サポートされていません | RAMRole |
データソースによってサポートされる認証の種類は異なります。MaxCompute は、今後のリリースで、現在のユーザー ID を使用した Hologres へのアクセスや、Hive へのアクセスに Kerberos 認証を使用するなど、より多くの認証方式をサポートする予定です。