このトピックでは、IcebergテーブルでData Lake Formation(DLF)のメタデータを使用する場合に設定する必要があるパラメーターについて説明します。
以下のコンピュートエンジンがサポートされています。
Spark
Alibaba Cloud Object Storage Service(OSS)はファイルシステムとして使用されます。 カタログのデフォルト名と設定する必要があるパラメーターは、クラスターのバージョンによって異なります。
EMR V3.40以降のマイナーバージョン、および EMR V5.6.0以降
説明カタログのデフォルト名は iceberg です。
パラメーター
説明
備考
spark.sql.extensions
SparkのSQL拡張モジュール。
値を org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions に設定します。
説明このパラメーターは Iceberg 0.11.0 で導入されました。 Spark 3.x のみでこのパラメーターがサポートされています。
spark.sql.catalog.<catalog-name>
カタログの名前。
値を org.apache.iceberg.spark.SparkCatalog に設定します。
spark.sql.catalog.<catalog-name>.catalog-impl
カタログのクラス名。
値を org.apache.iceberg.aliyun.dlf.hive.DlfCatalog に設定します。
EMR V3.39.X および EMR V5.5.X
説明カタログのデフォルト名は dlf です。
パラメーター
説明
備考
spark.sql.extensions
Spark の SQL 拡張モジュール。
値を org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions に設定します。
説明このパラメーターは Apache Iceberg 0.11.0 で導入されました。 Apache Spark 3.x のみでこのパラメーターがサポートされています。
spark.sql.catalog.<catalog-name>
カタログの名前。
値を org.apache.iceberg.spark.SparkCatalog に設定します。
spark.sql.catalog.<catalog-name>.catalog-impl
カタログのクラス名。
値を org.apache.iceberg.aliyun.dlf.hive.DlfCatalog に設定します。
EMR V3.38.X、EMR V5.3.X、および EMR V5.4.X
説明カタログのデフォルト名は dlf_catalog です。
パラメーター
説明
備考
spark.sql.extensions
Spark の SQL 拡張モジュール。
値を org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions に設定します。
説明このパラメーターは Apache Iceberg 0.11.0 で導入されました。 Apache Spark 3.x のみでこのパラメーターがサポートされています。
spark.sql.catalog.<catalog-name>
カタログの名前。
値を org.apache.iceberg.spark.SparkCatalog に設定します。
spark.sql.catalog.<catalog-name>.catalog-impl
カタログのクラス名。
値を org.apache.iceberg.aliyun.dlf.DlfCatalog に設定します。
spark.sql.catalog.<catalog-name>.io-impl
I/O 操作中にカタログに書き込まれるクラスの名前。
値を org.apache.iceberg.hadoop.HadoopFileIO に設定します。
spark.sql.catalog.<catalog-name>.oss.endpoint
OSSバケットのエンドポイント。
詳細については、「リージョンとエンドポイント」をご参照ください。
このパラメーターは、OSSバケットの仮想プライベートクラウド(VPC)エンドポイントに設定することをお勧めします。 たとえば、中国(杭州)リージョンを選択した場合は、このパラメーターを oss-cn-hangzhou-internal.aliyuncs.com に設定します。
説明VPC間でOSSにアクセスする場合は、このパラメーターをOSSバケットのパブリックエンドポイントに設定します。
spark.sql.catalog.<catalog-name>.warehouse
テーブルデータが格納されるOSSパス。
なし。
spark.sql.catalog.<catalog-name>.access.key.id
Alibaba CloudアカウントのAccessKey ID。
Alibaba CloudアカウントのAccessKey IDを取得する方法については、「AccessKey ペアの取得」をご参照ください。
spark.sql.catalog.<catalog-name>.access.key.secret
Alibaba CloudアカウントのAccessKeyシークレット。
Alibaba CloudアカウントのAccessKeyシークレットを取得する方法については、「AccessKey ペアの取得」をご参照ください。
spark.sql.catalog.<catalog-name>.dlf.catalog-id
Alibaba CloudアカウントのID。
[セキュリティ設定] ページに移動して、Alibaba CloudアカウントのIDを取得します。
spark.sql.catalog.<catalog-name>.dlf.endpoint
DLFのエンドポイント。
このパラメーターは、DLFのVPCエンドポイントに設定することをお勧めします。 たとえば、中国(杭州)リージョンを選択した場合は、このパラメーターを dlf-vpc.cn-hangzhou.aliyuncs.com に設定します。
説明このパラメーターは、DLFのパブリックエンドポイントに設定できます。 中国(杭州)リージョンを選択した場合は、このパラメーターを dlf.cn-hangzhou.aliyuncs.com に設定します。
spark.sql.catalog.<catalog-name>.dlf.region-id
DLFがアクティブになっているリージョンのID。
このパラメーターで指定したリージョンが、spark.sql.catalog.<catalog-name>.dlf.endpoint パラメーターで指定したエンドポイントと一致することを確認してください。
Hive
クラスターのバージョンに基づいて、以下の表に記載されているパラメーターを設定できます。
EMR V3.39.0以降のマイナーバージョン、および EMR V5.5.0以降
説明カタログのデフォルト名は dlf です。
パラメーター
説明
備考
iceberg.catalog.<catalog-name>.catalog-impl
カタログのクラス名。
値を org.apache.iceberg.aliyun.dlf.hive.DlfCatalog に設定します。
EMR V3.38.X、EMR V5.3.X、および EMR V5.4.X
説明カタログのデフォルト名は dlf_catalog です。
パラメーター
説明
備考
iceberg.catalog
カタログの名前。
カスタム名に設定します。
iceberg.catalog.<catalog-name>.type
カタログのタイプ。
値を custom に設定します。
iceberg.catalog.<catalog-name>.catalog-impl
カタログのクラス名。
値を org.apache.iceberg.aliyun.dlf.DlfCatalog に設定します。
iceberg.catalog.<catalog-name>.io-impl
I/O 操作中にカタログに書き込まれるクラスの名前。
値を org.apache.iceberg.hadoop.HadoopFileIO に設定します。
iceberg.catalog.<catalog-name>.warehouse
テーブルデータが格納されるウェアハウスパス。
テーブルデータは、Hadoop Distributed File System(HDFS)またはOSSに格納できます。
iceberg.catalog.<catalog-name>.access.key.id
Alibaba Cloud アカウントの AccessKey ID。
Alibaba Cloud アカウントの AccessKey ID を取得する方法については、「AccessKey ペアの取得」をご参照ください。
iceberg.catalog.<catalog-name>.access.key.secret
Alibaba Cloudアカウントの AccessKey シークレット。
Alibaba Cloudアカウントの AccessKey シークレットを取得する方法については、「AccessKey ペアの取得」をご参照ください。
iceberg.catalog.<catalog-name>.dlf.catalog-id
Alibaba CloudアカウントのID。
[セキュリティ設定] ページに移動して、Alibaba CloudアカウントのIDを取得します。
iceberg.catalog.<catalog-name>.dlf.endpoint
DLF のエンドポイント。
このパラメーターは、DLF の VPC エンドポイントに設定することをお勧めします。 たとえば、中国(杭州)リージョンを選択した場合は、このパラメーターを dlf-vpc.cn-hangzhou.aliyuncs.com に設定します。
説明このパラメーターは、DLF のパブリックエンドポイントに設定できます。 中国(杭州)リージョンを選択した場合は、このパラメーターを dlf.cn-hangzhou.aliyuncs.com に設定します。
iceberg.catalog.<catalog-name>.dlf.region-id
DLF がアクティブになっているリージョンの ID。
このパラメーターで指定したリージョンが、iceberg.catalog.<catalog-name>.dlf.endpoint パラメーターで指定したエンドポイントと一致することを確認してください。