すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:DLFメタデータの設定

最終更新日:Apr 08, 2025

このトピックでは、IcebergテーブルでData Lake Formation(DLF)のメタデータを使用する場合に設定する必要があるパラメーターについて説明します。

以下のコンピュートエンジンがサポートされています。

Spark

Alibaba Cloud Object Storage Service(OSS)はファイルシステムとして使用されます。 カタログのデフォルト名と設定する必要があるパラメーターは、クラスターのバージョンによって異なります。

  • EMR V3.40以降のマイナーバージョン、および EMR V5.6.0以降

    説明

    カタログのデフォルト名は iceberg です。

    パラメーター

    説明

    備考

    spark.sql.extensions

    SparkのSQL拡張モジュール。

    値を org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions に設定します。

    説明

    このパラメーターは Iceberg 0.11.0 で導入されました。 Spark 3.x のみでこのパラメーターがサポートされています。

    spark.sql.catalog.<catalog-name>

    カタログの名前。

    値を org.apache.iceberg.spark.SparkCatalog に設定します。

    spark.sql.catalog.<catalog-name>.catalog-impl

    カタログのクラス名。

    値を org.apache.iceberg.aliyun.dlf.hive.DlfCatalog に設定します。

  • EMR V3.39.X および EMR V5.5.X

    説明

    カタログのデフォルト名は dlf です。

    パラメーター

    説明

    備考

    spark.sql.extensions

    Spark の SQL 拡張モジュール。

    値を org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions に設定します。

    説明

    このパラメーターは Apache Iceberg 0.11.0 で導入されました。 Apache Spark 3.x のみでこのパラメーターがサポートされています。

    spark.sql.catalog.<catalog-name>

    カタログの名前。

    値を org.apache.iceberg.spark.SparkCatalog に設定します。

    spark.sql.catalog.<catalog-name>.catalog-impl

    カタログのクラス名。

    値を org.apache.iceberg.aliyun.dlf.hive.DlfCatalog に設定します。

  • EMR V3.38.X、EMR V5.3.X、および EMR V5.4.X

    説明

    カタログのデフォルト名は dlf_catalog です。

    パラメーター

    説明

    備考

    spark.sql.extensions

    Spark の SQL 拡張モジュール。

    値を org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions に設定します。

    説明

    このパラメーターは Apache Iceberg 0.11.0 で導入されました。 Apache Spark 3.x のみでこのパラメーターがサポートされています。

    spark.sql.catalog.<catalog-name>

    カタログの名前。

    値を org.apache.iceberg.spark.SparkCatalog に設定します。

    spark.sql.catalog.<catalog-name>.catalog-impl

    カタログのクラス名。

    値を org.apache.iceberg.aliyun.dlf.DlfCatalog に設定します。

    spark.sql.catalog.<catalog-name>.io-impl

    I/O 操作中にカタログに書き込まれるクラスの名前。

    値を org.apache.iceberg.hadoop.HadoopFileIO に設定します。

    spark.sql.catalog.<catalog-name>.oss.endpoint

    OSSバケットのエンドポイント。

    詳細については、「リージョンとエンドポイント」をご参照ください。

    このパラメーターは、OSSバケットの仮想プライベートクラウド(VPC)エンドポイントに設定することをお勧めします。 たとえば、中国(杭州)リージョンを選択した場合は、このパラメーターを oss-cn-hangzhou-internal.aliyuncs.com に設定します。

    説明

    VPC間でOSSにアクセスする場合は、このパラメーターをOSSバケットのパブリックエンドポイントに設定します。

    spark.sql.catalog.<catalog-name>.warehouse

    テーブルデータが格納されるOSSパス。

    なし。

    spark.sql.catalog.<catalog-name>.access.key.id

    Alibaba CloudアカウントのAccessKey ID。

    Alibaba CloudアカウントのAccessKey IDを取得する方法については、「AccessKey ペアの取得」をご参照ください。

    spark.sql.catalog.<catalog-name>.access.key.secret

    Alibaba CloudアカウントのAccessKeyシークレット。

    Alibaba CloudアカウントのAccessKeyシークレットを取得する方法については、「AccessKey ペアの取得」をご参照ください。

    spark.sql.catalog.<catalog-name>.dlf.catalog-id

    Alibaba CloudアカウントのID。

    [セキュリティ設定] ページに移動して、Alibaba CloudアカウントのIDを取得します。 Obtain the ID of your Alibaba Cloud account

    spark.sql.catalog.<catalog-name>.dlf.endpoint

    DLFのエンドポイント。

    このパラメーターは、DLFのVPCエンドポイントに設定することをお勧めします。 たとえば、中国(杭州)リージョンを選択した場合は、このパラメーターを dlf-vpc.cn-hangzhou.aliyuncs.com に設定します。

    説明

    このパラメーターは、DLFのパブリックエンドポイントに設定できます。 中国(杭州)リージョンを選択した場合は、このパラメーターを dlf.cn-hangzhou.aliyuncs.com に設定します。

    spark.sql.catalog.<catalog-name>.dlf.region-id

    DLFがアクティブになっているリージョンのID。

    このパラメーターで指定したリージョンが、spark.sql.catalog.<catalog-name>.dlf.endpoint パラメーターで指定したエンドポイントと一致することを確認してください。

Hive

クラスターのバージョンに基づいて、以下の表に記載されているパラメーターを設定できます。

  • EMR V3.39.0以降のマイナーバージョン、および EMR V5.5.0以降

    説明

    カタログのデフォルト名は dlf です。

    パラメーター

    説明

    備考

    iceberg.catalog.<catalog-name>.catalog-impl

    カタログのクラス名。

    値を org.apache.iceberg.aliyun.dlf.hive.DlfCatalog に設定します。

  • EMR V3.38.X、EMR V5.3.X、および EMR V5.4.X

    説明

    カタログのデフォルト名は dlf_catalog です。

    パラメーター

    説明

    備考

    iceberg.catalog

    カタログの名前。

    カスタム名に設定します。

    iceberg.catalog.<catalog-name>.type

    カタログのタイプ。

    値を custom に設定します。

    iceberg.catalog.<catalog-name>.catalog-impl

    カタログのクラス名。

    値を org.apache.iceberg.aliyun.dlf.DlfCatalog に設定します。

    iceberg.catalog.<catalog-name>.io-impl

    I/O 操作中にカタログに書き込まれるクラスの名前。

    値を org.apache.iceberg.hadoop.HadoopFileIO に設定します。

    iceberg.catalog.<catalog-name>.warehouse

    テーブルデータが格納されるウェアハウスパス。

    テーブルデータは、Hadoop Distributed File System(HDFS)またはOSSに格納できます。

    iceberg.catalog.<catalog-name>.access.key.id

    Alibaba Cloud アカウントの AccessKey ID。

    Alibaba Cloud アカウントの AccessKey ID を取得する方法については、「AccessKey ペアの取得」をご参照ください。

    iceberg.catalog.<catalog-name>.access.key.secret

    Alibaba Cloudアカウントの AccessKey シークレット。

    Alibaba Cloudアカウントの AccessKey シークレットを取得する方法については、「AccessKey ペアの取得」をご参照ください。

    iceberg.catalog.<catalog-name>.dlf.catalog-id

    Alibaba CloudアカウントのID。

    [セキュリティ設定] ページに移動して、Alibaba CloudアカウントのIDを取得します。 Obtain the ID of your Alibaba Cloud account

    iceberg.catalog.<catalog-name>.dlf.endpoint

    DLF のエンドポイント。

    このパラメーターは、DLF の VPC エンドポイントに設定することをお勧めします。 たとえば、中国(杭州)リージョンを選択した場合は、このパラメーターを dlf-vpc.cn-hangzhou.aliyuncs.com に設定します。

    説明

    このパラメーターは、DLF のパブリックエンドポイントに設定できます。 中国(杭州)リージョンを選択した場合は、このパラメーターを dlf.cn-hangzhou.aliyuncs.com に設定します。

    iceberg.catalog.<catalog-name>.dlf.region-id

    DLF がアクティブになっているリージョンの ID。

    このパラメーターで指定したリージョンが、iceberg.catalog.<catalog-name>.dlf.endpoint パラメーターで指定したエンドポイントと一致することを確認してください。