全部产品
Search
文档中心

Object Storage Service:Gunakan Spark pada cluster EMR untuk memproses data yang disimpan di OSS-HDFS

更新时间:Jun 26, 2025

Topik ini menjelaskan cara menggunakan Spark pada cluster E-MapReduce (EMR) untuk memproses data yang disimpan di OSS-HDFS.

Prasyarat

  • Cluster EMR V3.42.0 atau yang lebih baru, atau EMR V5.8.0 atau yang lebih baru telah dibuat. Untuk informasi lebih lanjut, lihat Buat cluster.

  • OSS-HDFS diaktifkan untuk sebuah bucket dan izin akses pada OSS-HDFS diberikan. Untuk informasi lebih lanjut tentang cara mengaktifkan OSS-HDFS, lihat Aktifkan OSS-HDFS dan berikan izin akses.

Prosedur

  1. Masuk ke konsol E-MapReduce. Di panel navigasi sebelah kiri, klik EMR on ECS dan buat cluster EMR.

    Saat membuat cluster EMR, pastikan Anda mengatur Product Version ke EMR-3.46.2 atau yang lebih baru atau EMR-5.12.2 atau yang lebih baru dan Root Storage Directory of Cluster ke sebuah bucket yang telah mengaktifkan OSS-HDFS. Gunakan nilai default untuk parameter lainnya. Untuk informasi lebih lanjut, lihat Buat cluster.

  2. Jalankan perintah berikut di terminal untuk memulai Spark Shell:

    spark-shell
  3. Gunakan Spark untuk mengakses OSS-HDFS.

    1. Buat tabel.

      spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")
    2. Masukkan data ke dalam tabel.

      spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")
    3. Kueri data dalam tabel.

      spark.sql("SELECT c1 FROM test_oss")