Gunakan Spark pada kluster EMR untuk memproses data di OSS-HDFS-Object Storage Service-Alibaba Cloud

Topik ini menjelaskan cara menggunakan Spark pada cluster E-MapReduce (EMR) untuk memproses data yang disimpan di OSS-HDFS.

Prasyarat

Cluster EMR V3.42.0 atau yang lebih baru, atau EMR V5.8.0 atau yang lebih baru telah dibuat. Untuk informasi lebih lanjut, lihat Buat cluster.
OSS-HDFS diaktifkan untuk sebuah bucket dan izin akses pada OSS-HDFS diberikan. Untuk informasi lebih lanjut tentang cara mengaktifkan OSS-HDFS, lihat Aktifkan OSS-HDFS dan berikan izin akses.

Masuk ke konsol E-MapReduce. Di panel navigasi sebelah kiri, klik EMR on ECS dan buat cluster EMR.
Saat membuat cluster EMR, pastikan Anda mengatur Product Version ke EMR-3.46.2 atau yang lebih baru atau EMR-5.12.2 atau yang lebih baru dan Root Storage Directory of Cluster ke sebuah bucket yang telah mengaktifkan OSS-HDFS. Gunakan nilai default untuk parameter lainnya. Untuk informasi lebih lanjut, lihat Buat cluster.
Jalankan perintah berikut di terminal untuk memulai Spark Shell:
```
spark-shell
```

Gunakan Spark untuk mengakses OSS-HDFS.

Buat tabel.

spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")

Masukkan data ke dalam tabel.

spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")