すべてのプロダクト
Search
ドキュメントセンター

Dataphin:MaxCompute データレイクハウス

最終更新日:Jun 27, 2025

MaxCompute データレイクハウス ソリューションは、データレイクの柔軟性とデータウェアハウスの堅牢な機能を組み合わせたものです。MaxCompute と Data Lake Formation(DLF)を統合することにより、包括的なデータ管理プラットフォームを構築します。このトピックでは、Dataphin を使用した MaxCompute および DLF データレイクハウス内のデータ資産の管理の概要について説明します。

背景情報

MaxCompute データレイクハウスは、MaxCompute とデータレイクによって実現され、主に次の 2 つの構築方法をサポートしています。

  • MaxCompute、DLF、および Object Storage Service(OSS)を使用してデータレイクハウスを構築する: このアプローチでは、DLF がデータレイクのメタデータ(スキーマ)全体を管理します。 MaxCompute は、DLF の OSS 用メタデータ管理を利用して、OSS 内の Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC などの半構造化フォーマットの処理を強化します。 DLF と OSS の詳細については、「Data Lake Formation とは」および「OSS の概要」をご参照ください。

  • MaxCompute と Hadoop を使用してデータレイクハウスを構築する: この方法には、ローカル データセンターの構成、クラウドベースの 仮想マシン デプロイメント、および Alibaba Cloud E-MapReduce が含まれます。 MaxCompute と Hadoop プラットフォームを接続する VPC ネットワークが確立されると、MaxCompute は Hive のグローバル メタサービスに直接アクセスし、メタデータを外部 MaxCompute プロジェクトにマッピングできます。

前提条件

Dataphin で MaxCompute および DLF と OSS データレイクハウスを管理する前に、次の要件が満たされていることを確認してください。

  • DLF サービスを有効化します。

  • OSS サービスを有効化します。

  • MaxCompute サービスを有効化し、MaxCompute プロジェクトを作成します。

    create externalproject -source dlf -name external_project  -- 必須。作成する外部プロジェクトの名前。
    -ref maxcompute_project -- 作成された MaxCompute プロジェクトの名前
    -comment "DLF"
    -region "cn-hangzhou" -- DLF が配置されているリージョンの RegionID。 RegionID の詳細については、「RegionID と VPC ID を取得する」を参照してください。
    -db metadat_store -- DLF メタデータベースの名前。
    -endpoint "dlf-share.cn-hangzhou.aliyuncs.com" -- DLF の エンドポイント 情報
    -ossEndpoint "oss-cn-hangzhou-internal.aliyuncs.com"; -- OSS が配置されているリージョンの エンドポイント

MaxCompute アクセス権限付与

  • MaxCompute と Hadoop を使用してデータレイクハウスを構築する場合、権限付与プロセスは次のとおりです。

    MaxCompute に ネットワーク接続 用のユーザーの VPC 内に Elastic Network Interface(ENI)を作成する権限を付与します。 VPC 所有者アカウントで Alibaba Cloud にログオンし、シングルクリックで承認します。

  • MaxCompute、DLF、および OSS を使用してデータレイクハウスを構築する場合、権限付与プロセスは次のとおりです。

    権限付与がないと、MaxCompute プロジェクトアカウントは DLF にアクセスできません。 権限付与は、次の方法で実行できます。

    • ワンクリック認証: MaxCompute プロジェクトを作成するアカウントが DLF をデプロイするアカウントと同じである場合に、この方法を使用します。 DLF をシングルクリックで承認することをお勧めします。

    • カスタム認証: この方法は、MaxCompute プロジェクトを作成するアカウントが DLF をデプロイするアカウントと同じか異なる場合に適しています。 詳細については、「DLF をカスタム認証する」をご参照ください。

Dataphin を介した MaxCompute データレイクハウスの管理

DLF は、OSS のメタデータディスカバリーと管理を容易にします。 MaxCompute は、DLF に基づいて外部プロジェクトを作成し、管理対象のメタデータを MaxCompute の外部プロジェクトに登録できます。 Dataphin を使用すると、MaxCompute および DLF 上に構築されたデータレイクハウスの データ処理 (オフライン開発および標準化モデリング)、メタデータ管理、アクセスの制御、セキュリティ監査、データ品質評価、および 計算資源 管理が可能になります。image

MaxCompute 計算ソースを作成し、Dataphin プロジェクトにバインドする

MaxCompute 計算ソースを作成し、MaxCompute の外部プロジェクトを登録します。 外部プロジェクトには 計算資源 がないため、タスク実行、品質ルール適用、セキュリティルール スキャン、およびセキュリティポリシー実装のために、追加の MaxCompute プロジェクトを指定します。 MaxCompute 計算ソースの作成手順については、「MaxCompute 計算ソースを作成する」をご参照ください。

計算ソースの作成後、プロジェクトを確立し、新しい計算ソースを MaxCompute 計算ソースとして登録します。

MaxCompute データレイクハウス外部プロジェクトのデータに基づく標準化モデリングとデータ処理

MaxCompute 計算ソースが作成され、Dataphin プロジェクトにリンクされると、標準化モデリングによって外部プロジェクトの ソーステーブル から 論理テーブル を生成できます。 MaxCompute SQL タスクは、関連付けられた内部プロジェクトの 計算資源 を利用して、外部プロジェクトのデータ 操作 を実行およびサポートできます。

メタデータ情報を表示し、データレイクハウスの権限を管理する

  • メタデータ情報の表示を容易にします。

  • 外部プロジェクトのデータテーブルと フィールド の資産検索とクエリを有効にします。

  • データプレビューを許可します。

  • select 文 と DDL 文 を生成します。

  • 外部プロジェクトのテーブルと フィールド の 権限 申請を容易にします。

データレイクハウスのデータ品質を監査し、セキュリティを管理する

  • 外部プロジェクトの 物理テーブル のデータテーブル品質ルールの 構成 を有効にします。

  • 品質ルール検証のための MaxCompute SQL タスク実行をサポートします。

  • セキュリティルール スキャンとセキュリティポリシー実装を容易にします。