EMRクラスターでSparkを使用してOSS-HDFSに格納されたデータを処理する - Object Storage Service

このトピックでは、E-MapReduce (EMR) クラスターでSparkを使用して、OSS-HDFSに格納されているデータを処理する方法について説明します。

前提条件

EMR V3.42.0以降、またはEMR V5.8.0以降のクラスターが作成されています。詳細については、「クラスターの作成」をご参照ください。
バケットのOSS-HDFSが有効になり、OSS-HDFSに対するアクセス許可が付与されます。 OSS-HDFSを有効にする方法の詳細については、「OSS-HDFSの有効化とアクセス許可の付与」をご参照ください。

Sparkを使用してOSS-HDFSにアクセスします。

テーブルを作成します。

spark.sql("CREATE TABLE test_oss ('c1' 文字列) OPTIONS (PATH 'oss:// examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")

テーブルにデータを挿入します。

spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")