Topik ini menjelaskan cara menggunakan Spark pada cluster E-MapReduce (EMR) untuk memproses data yang disimpan di OSS-HDFS.
Prasyarat
Cluster EMR V3.42.0 atau yang lebih baru, atau EMR V5.8.0 atau yang lebih baru telah dibuat. Untuk informasi lebih lanjut, lihat Buat cluster.
OSS-HDFS diaktifkan untuk sebuah bucket dan izin akses pada OSS-HDFS diberikan. Untuk informasi lebih lanjut tentang cara mengaktifkan OSS-HDFS, lihat Aktifkan OSS-HDFS dan berikan izin akses.
Prosedur
Masuk ke konsol E-MapReduce. Di panel navigasi sebelah kiri, klik EMR on ECS dan buat cluster EMR.
Saat membuat cluster EMR, pastikan Anda mengatur Product Version ke EMR-3.46.2 atau yang lebih baru atau EMR-5.12.2 atau yang lebih baru dan Root Storage Directory of Cluster ke sebuah bucket yang telah mengaktifkan OSS-HDFS. Gunakan nilai default untuk parameter lainnya. Untuk informasi lebih lanjut, lihat Buat cluster.
Jalankan perintah berikut di terminal untuk memulai Spark Shell:
spark-shellGunakan Spark untuk mengakses OSS-HDFS.
Buat tabel.
spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")Masukkan data ke dalam tabel.
spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")Kueri data dalam tabel.
spark.sql("SELECT c1 FROM test_oss")