Buat node EMR Spark - DataWorks

Spark adalah mesin serbaguna, berkinerja tinggi, dan mudah digunakan untuk analitik data skala besar. Anda dapat menggunakan Spark untuk melakukan analisis kompleks dalam memori dan membangun aplikasi analitik data besar dengan latensi rendah. DataWorks menyediakan node EMR Spark untuk membantu Anda mengembangkan dan menjadwalkan tugas Spark secara berkala. Topik ini menjelaskan cara membuat node EMR Spark dan memberikan contoh terperinci.

Prasyarat

Sebelum mengembangkan node, jika perlu menyesuaikan lingkungan komponen, Anda dapat membuat gambar kustom berdasarkan gambar resmi dataworks_emr_base_task_pod dan menggunakan gambar kustom di DataStudio.
Sebagai contoh, Anda dapat mengganti paket JAR Spark atau menyertakan pustaka, file, atau paket JAR tertentu saat membuat gambar kustom.
Kluster EMR telah didaftarkan ke DataWorks. Untuk informasi selengkapnya, lihat DataStudio (versi lama): Mengikat sumber daya komputasi EMR.
(Opsional) Jika Anda menggunakan Pengguna Resource Access Management (RAM) untuk mengembangkan tugas, tambahkan pengguna tersebut ke ruang kerja yang sesuai dan berikan peran Developer atau Workspace Administrator. Peran Administrator Ruang Kerja mencakup izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya, lihat Menambahkan anggota ke ruang kerja.
Kelompok sumber daya telah dibeli dan dikonfigurasi. Konfigurasi mencakup mengikat ruang kerja dan mengonfigurasi jaringan. Untuk informasi selengkapnya, lihat Menggunakan kelompok sumber daya Serverless.
Alur bisnis harus dibuat. Karena operasi pengembangan untuk mesin yang berbeda di DataStudio dilakukan berdasarkan alur bisnis, Anda harus membuat alur bisnis sebelum membuat node. Untuk informasi selengkapnya, lihat Membuat alur bisnis.
Jika tugas Anda memerlukan lingkungan pengembangan tertentu, Anda dapat menggunakan fitur gambar kustom DataWorks untuk membangun citra komponen guna eksekusi tugas. Untuk informasi selengkapnya, lihat Gambar kustom.

Batasan

Jenis node ini hanya dapat dijalankan pada kelompok sumber daya serverless atau grup sumber daya eksklusif untuk penjadwalan. Disarankan menggunakan kelompok sumber daya serverless. Jika perlu menggunakan citra di DataStudio, gunakan kelompok sumber daya komputasi serverless.
Untuk kluster DataLake atau kluster kustom, Anda harus mengonfigurasi EMR-HOOK pada kluster untuk mengelola metadata di DataWorks. Jika EMR-HOOK tidak dikonfigurasi, Anda tidak dapat melihat metadata secara real-time, menghasilkan log audit, melihat alur data, atau melakukan tugas administrasi data terkait EMR di DataWorks. Untuk informasi lebih lanjut tentang cara mengonfigurasi EMR-HOOK, lihat Mengonfigurasi EMR-HOOK untuk Spark SQL.
Kluster EMR on ACK Spark tidak mendukung penampilan alur data. Kluster EMR Serverless Spark mendukung penampilan alur data.
Kluster EMR on ACK Spark dan kluster EMR Serverless Spark hanya mendukung merujuk sumber daya OSS menggunakan OSS REF dan mengunggah sumber daya ke OSS. Keduanya tidak mendukung pengunggahan sumber daya ke HDFS.
Kluster DataLake dan kluster kustom mendukung merujuk sumber daya OSS menggunakan OSS REF, mengunggah sumber daya ke OSS, serta mengunggah sumber daya ke HDFS.

Catatan

Jika Anda mengaktifkan kontrol akses Ranger untuk Spark di kluster EMR yang terikat ke ruang kerja saat ini:

Fitur ini tersedia secara default saat Anda menjalankan tugas Spark yang menggunakan gambar default.
Untuk menjalankan tugas Spark yang menggunakan gambar kustom, Anda harus mengajukan tiket ke helpdesk untuk meningkatkan gambar agar mendukung fitur ini.

Persiapan: Kembangkan tugas Spark dan dapatkan paket JAR

Sebelum menjadwalkan tugas EMR Spark di DataWorks, Anda harus mengembangkan kode tugas Spark di EMR dan mengompilasinya untuk menghasilkan paket JAR. Untuk informasi selengkapnya tentang cara mengembangkan tugas EMR Spark, lihat Ikhtisar Spark.

Catatan

Anda harus mengunggah paket JAR tugas ke DataWorks untuk menjadwalkan tugas EMR Spark secara berkala.

Langkah 1: Buat node EMR Spark

Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat node EMR Spark.
1. Klik kanan alur bisnis target dan pilih Create Node > EMR > EMR Spark.
  Catatan
  Anda juga dapat mengarahkan kursor ke Create dan memilih Create Node > EMR > EMR Spark.
2. Pada kotak dialog Create Node, masukkan Name dan pilih Engine Instance, Node Type, dan Path. Klik OK untuk membuka halaman editor node EMR Spark.
  Catatan
  Nama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).

Langkah 2: Kembangkan tugas Spark

Pada halaman editor node EMR Spark, klik ganda node yang telah dibuat untuk membuka halaman pengembangan tugas. Pilih salah satu operasi berikut berdasarkan skenario Anda:

(Direkomendasikan) Unggah sumber daya dari mesin lokal Anda ke DataStudio lalu rujuk sumber daya tersebut. Untuk informasi selengkapnya, lihat Skenario 1: Unggah lalu rujuk sumber daya JAR EMR.
Rujuk sumber daya OSS menggunakan OSS REF. Untuk informasi selengkapnya, lihat Skenario 2: Langsung merujuk sumber daya OSS.

Skenario 1: Unggah lalu rujuk sumber daya JAR EMR

DataWorks memungkinkan Anda mengunggah sumber daya dari mesin lokal ke DataStudio lalu merujuk sumber daya tersebut. Setelah Anda mengompilasi tugas EMR Spark, dapatkan paket JAR hasil kompilasi. Disarankan menyimpan sumber daya paket JAR berdasarkan ukurannya.

Anda dapat mengunggah sumber daya paket JAR, membuatnya sebagai sumber daya EMR DataWorks, lalu mengirimkannya. Atau, Anda dapat menyimpannya langsung di HDFS EMR. Kluster EMR on ACK Spark dan kluster EMR Serverless Spark tidak mendukung pengunggahan sumber daya ke HDFS.

Jika paket JAR berukuran kurang dari 500 MB

Buat sumber daya JAR EMR.
Jika paket JAR berukuran kurang dari 500 MB, Anda dapat mengunggahnya dari mesin lokal sebagai sumber daya JAR EMR DataWorks. Metode ini memudahkan pengelolaan sumber daya di konsol DataWorks. Setelah membuat sumber daya, Anda harus mengirimkannya. Untuk informasi selengkapnya, lihat Membuat dan menggunakan sumber daya EMR.
Catatan
Saat pertama kali membuat sumber daya EMR, jika Anda ingin menyimpan paket JAR yang diunggah di OSS, Anda harus terlebih dahulu melakukan otorisasi seperti yang diminta pada halaman tersebut.
Rujuk sumber daya JAR EMR.
1. Klik ganda node EMR Spark untuk membuka editor kodenya.
2. Di node EMR > Resource, temukan sumber daya JAR EMR yang telah Anda unggah. Klik kanan sumber daya tersebut dan pilih Reference Resource.
3. Setelah Anda memilih sumber daya, kode referensi sumber daya akan ditambahkan secara otomatis ke halaman editor node EMR Spark saat ini. Berikut ini contoh kodenya.
```
##@resource_reference{"spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar"}
spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar
```
  Jika kode referensi di atas ditambahkan secara otomatis, berarti sumber daya tersebut telah dirujuk. Dalam kode tersebut, spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar adalah nama sumber daya JAR EMR yang Anda unggah.
4. Ubah kode node EMR Spark untuk menambahkan perintah spark-submit. Berikut ini contoh kodenya.
  Catatan
  Editor node EMR Spark tidak mendukung komentar. Pastikan Anda mengubah kode tugas seperti pada contoh berikut. Jangan tambahkan komentar. Jika tidak, terjadi kesalahan saat menjalankan node.
```
##@resource_reference{"spark-examples_2.11-2.4.0.jar"}
spark-submit --class org.apache.spark.examples.SparkPi --master yarn  spark-examples_2.11-2.4.0.jar 100
```
  Di mana:
  - org.apache.spark.examples.SparkPi: Kelas utama tugas dalam paket JAR yang telah dikompilasi.
  - spark-examples_2.11-2.4.0.jar: Nama sumber daya JAR EMR yang Anda unggah.
  - Untuk parameter lainnya, Anda dapat menggunakan nilai dari contoh di atas atau jalankan perintah berikut untuk melihat dokumentasi bantuan untuk spark-submit dan ubah perintah spark-submit sesuai kebutuhan.
    Catatan
    Untuk menggunakan parameter sederhana dalam perintah spark-submit di node Spark, Anda harus menambahkannya ke kode. Misalnya, --executor-memory 2G.
    Node Spark hanya mendukung pengiriman pekerjaan dalam mode kluster YARN.
    Untuk tugas yang dikirim menggunakan spark-submit, disarankan mengatur deploy-mode ke cluster, bukan client.
```
spark-submit --help
```

Jika paket JAR berukuran 500 MB atau lebih besar

Buat sumber daya JAR EMR.
Jika paket JAR berukuran 500 MB atau lebih besar, Anda tidak dapat mengunggahnya sebagai sumber daya DataWorks dari mesin lokal. Disarankan menyimpan paket JAR di HDFS EMR dan mencatat path penyimpanannya. Anda harus menggunakan path ini untuk merujuk paket tersebut saat menjadwalkan tugas Spark di DataWorks.
Rujuk sumber daya JAR EMR.
Jika paket JAR disimpan di HDFS, Anda dapat merujuknya di node EMR Spark dengan menentukan path-nya dalam kode.
1. Klik ganda node EMR Spark untuk membuka editor kodenya.
2. Tulis perintah spark-submit. Berikut ini contoh kodenya.
```
spark-submit --master yarn
--deploy-mode cluster
--name SparkPi
--driver-memory 4G
--driver-cores 1
--num-executors 5
--executor-memory 4G
--executor-cores 1
--class org.apache.spark.examples.JavaSparkPi
hdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar 100
```
  Di mana:
  - hdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar: Path aktual paket JAR di HDFS.
  - org.apache.spark.examples.JavaSparkPi: Kelas utama tugas dalam paket JAR yang telah dikompilasi.
  - Parameter lainnya disesuaikan dengan kluster EMR yang sebenarnya dan harus dikonfigurasi sesuai kebutuhan. Anda juga dapat menjalankan perintah berikut untuk melihat informasi bantuan spark-submit dan mengubah perintah sesuai kebutuhan.
    Penting
    Untuk menggunakan parameter sederhana dalam perintah Spark-submit di node Spark, Anda harus menambahkannya ke kode. Misalnya, --executor-memory 2G.
    Node Spark hanya mendukung pengiriman pekerjaan dalam mode kluster YARN.
    Untuk tugas yang dikirim menggunakan spark-submit, disarankan mengatur deploy-mode ke cluster, bukan client.
```
spark-submit --help
```

Skenario 2: Langsung merujuk sumber daya OSS

Node ini dapat langsung merujuk sumber daya OSS menggunakan OSS REF. Saat menjalankan node EMR, DataWorks secara otomatis memuat sumber daya OSS dari kode ke mesin lokal Anda. Metode ini sering digunakan dalam skenario di mana tugas EMR perlu menjalankan dependensi JAR atau bergantung pada skrip.

Kembangkan sumber daya JAR.

Persiapkan dependensi kode.

Buka kluster EMR Anda. Di path /usr/lib/emr/spark-current/jars/ pada node master kluster, lihat dependensi kode yang Anda perlukan. Contoh berikut menggunakan Spark 3.4.2. Anda harus membuka proyek IntelliJ IDEA yang telah dibuat, menambahkan dependensi pom, dan merujuk plugin terkait.

Tambahkan dependensi pom

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>3.4.2</version>
        </dependency>
        <!-- Apache Spark SQL -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>3.4.2</version>
        </dependency>
</dependencies>

Rujuk plugin terkait

<build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <configuration>
                    <recompileMode>incremental</recompileMode>
                </configuration>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-dependencyfile</arg>
                                <arg>${project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

Tulis kode contoh.

package com.aliyun.emr.example.spark

import org.apache.spark.sql.SparkSession

object SparkMaxComputeDemo {
  def main(args: Array[String]): Unit = {
    // Buat SparkSession
    val spark = SparkSession.builder()
      .appName("HelloDataWorks")
      .getOrCreate()

    // Cetak versi Spark
    println(s"Versi Spark: ${spark.version}")
  }
}

Kemas kode menjadi file JAR.
Setelah mengedit dan menyimpan kode Scala, kemas menjadi file JAR. Paket JAR yang dihasilkan dalam contoh ini adalah SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar.

Unggah sumber daya JAR.
1. Setelah selesai mengembangkan kode, masuk ke Konsol OSS. Di panel navigasi kiri, klik Buckets.
2. Klik nama bucket target untuk membuka halaman Files.
  Bucket yang digunakan dalam contoh ini adalah onaliyun-bucket-2.
3. Klik Create Directory untuk membuat direktori sumber daya JAR.
  Atur Directory Name menjadi emr/jars untuk membuat direktori bagi sumber daya JAR Anda.
4. Unggah sumber daya JAR ke direktori tersebut.
  Arahkan ke direktori tersebut dan klik Upload. Di area Files To Upload, klik Scan For Files. Pilih file SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar lalu klik Upload.

Rujuk sumber daya JAR.

Edit kode untuk merujuk sumber daya JAR.

Pada halaman editor node EMR Spark yang telah dibuat, edit kode untuk merujuk sumber daya JAR.

spark-submit --class com.aliyun.emr.example.spark.SparkMaxComputeDemo --master yarn ossref://onaliyun-bucket-2/emr/jars/SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar

Penjelasan parameter:

Parameter	Deskripsi
`class`	Nama lengkap kelas utama yang akan dijalankan.
`master`	Mode eksekusi aplikasi Spark.
Path file `ossref`	Formatnya adalah `ossref://{endpoint}/{bucket}/{object}` endpoint: Titik akhir untuk mengakses OSS. Jika endpoint kosong, Anda hanya dapat menggunakan OSS di wilayah yang sama dengan kluster EMR. Artinya, bucket OSS harus berada di wilayah yang sama dengan kluster EMR. Bucket: Kontainer OSS yang digunakan untuk menyimpan objek. Setiap Bucket memiliki nama unik. Masuk ke Konsol OSS untuk melihat semua Buckets di bawah akun saat ini. object: Objek spesifik (nama file atau path) yang disimpan di Bucket.

Jalankan tugas node EMR Spark.
Setelah selesai mengedit, klik ikon . Pilih kelompok sumber daya Serverless yang telah Anda buat untuk menjalankan node EMR Spark. Setelah tugas selesai, catat applicationId yang dicetak di konsol, misalnya, application_1730367929285_xxxx.
Lihat hasilnya.
Buat node Shell EMR dan jalankan perintah yarn logs -applicationId application_1730367929285_xxxx di node tersebut untuk melihat hasilnya:

(Opsional) Konfigurasi parameter lanjutan

Anda dapat mengonfigurasi parameter properti khusus Spark di Pengaturan Lanjutan node. Untuk informasi selengkapnya tentang parameter properti Spark, lihat Konfigurasi Spark. Parameter lanjutan yang tersedia bervariasi berdasarkan jenis kluster EMR, seperti yang ditunjukkan pada tabel berikut.

Kluster DataLake/Kluster kustom: EMR on ECS

Parameter lanjutan	Deskripsi konfigurasi
queue	Antrian penjadwalan untuk mengirim pekerjaan. Antrian default adalah `default`. Jika Anda mengonfigurasi YARN Resource Queue tingkat ruang kerja saat mendaftarkan kluster EMR ke ruang kerja DataWorks: Jika Anda memilih Yes untuk Global Configuration Priority, antrian yang dikonfigurasi saat pendaftaran kluster EMR akan digunakan untuk tugas Spark. Jika tidak dipilih, antrian ditentukan oleh konfigurasi node EMR Spark saat tugas Spark dijalankan. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi selengkapnya tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Menetapkan antrian sumber daya YARN global.
priority	Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE	Mode eksekusi untuk pernyataan SQL. Nilai yang valid: `true`: Beberapa pernyataan SQL dieksekusi sekaligus. `false` (default): Satu pernyataan SQL dieksekusi sekaligus. Catatan Parameter ini hanya dapat digunakan untuk pengujian dan menjalankan alur di lingkungan pengembangan.
Lainnya	Anda dapat menambahkan parameter SPARK kustom dalam konfigurasi lanjutan. Misalnya, `"spark.eventLog.enabled":false`. DataWorks secara otomatis menambahkan parameter ke kode yang dikirim ke kluster EMR dalam format: `--conf key=value`. Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Menetapkan parameter Spark global. Catatan Untuk mengaktifkan kontrol akses Ranger, tambahkan konfigurasi `spark.hadoop.fs.oss.authorization.method=ranger` di Menetapkan parameter Spark global untuk memastikan kontrol akses Ranger berlaku.

Kluster EMR Serverless Spark

Untuk informasi selengkapnya tentang pengaturan parameter, lihat Menetapkan parameter untuk mengirim tugas Spark.

Parameter lanjutan	Deskripsi konfigurasi
queue	Antrian penjadwalan untuk mengirim pekerjaan. Antrian default adalah `dev_queue`.
priority	Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE	Mode eksekusi untuk pernyataan SQL. Nilai yang valid: `true`: Beberapa pernyataan SQL dieksekusi sekaligus. `false`: Satu pernyataan SQL dieksekusi sekaligus. Catatan Parameter ini hanya dapat digunakan untuk pengujian dan menjalankan alur di lingkungan pengembangan.
SERVERLESS_RELEASE_VERSION	Versi mesin Spark. Secara default, Default Engine Version yang dikonfigurasi untuk kluster di Cluster Management pada Management Center digunakan. Untuk menetapkan versi mesin yang berbeda untuk tugas yang berbeda, Anda dapat mengaturnya di sini.
SERVERLESS_QUEUE_NAME	Menentukan antrian sumber daya. Secara default, Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management pada Management Center digunakan. Jika Anda memiliki persyaratan isolasi dan manajemen sumber daya, Anda dapat menambahkan antrian. Untuk informasi selengkapnya, lihat Mengelola antrian sumber daya.
Lainnya	Anda dapat menambahkan parameter SPARK kustom dalam konfigurasi lanjutan. Misalnya, `"spark.eventLog.enabled":false`. DataWorks secara otomatis menambahkan parameter ke kode yang dikirim ke kluster EMR dalam format: `--conf key=value`. Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Menetapkan parameter Spark global.

Kluster Spark: EMR ON ACK

Parameter lanjutan	Deskripsi konfigurasi
queue	Tidak didukung.
priority	Tidak didukung.
FLOW_SKIP_SQL_ANALYZE	Mode eksekusi untuk pernyataan SQL. Nilai yang valid: `true`: Beberapa pernyataan SQL dieksekusi sekaligus. `false`: Satu pernyataan SQL dieksekusi sekaligus. Catatan Parameter ini hanya dapat digunakan untuk pengujian dan menjalankan alur di lingkungan pengembangan.
Lainnya	Anda dapat menambahkan parameter SPARK kustom dalam konfigurasi lanjutan. Misalnya, `"spark.eventLog.enabled":false`. DataWorks secara otomatis menambahkan parameter ke kode yang dikirim ke kluster EMR dalam format: `--conf key=value`. Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Menetapkan parameter Spark global.

Kluster Hadoop: EMR on ECS

Parameter lanjutan	Deskripsi konfigurasi
queue	Antrian penjadwalan untuk mengirim pekerjaan. Antrian default adalah `default`. Jika Anda mengonfigurasi YARN Resource Queue tingkat ruang kerja saat mendaftarkan kluster EMR ke ruang kerja DataWorks: Jika Anda memilih Yes untuk Global Configuration Priority, antrian yang dikonfigurasi saat pendaftaran kluster EMR akan digunakan untuk tugas Spark. Jika tidak dipilih, antrian ditentukan oleh konfigurasi node EMR Spark saat tugas Spark dijalankan. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi selengkapnya tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Menetapkan antrian sumber daya YARN global.
priority	Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE	Mode eksekusi untuk pernyataan SQL. Nilai yang valid: `true`: Beberapa pernyataan SQL dieksekusi sekaligus. `false`: Satu pernyataan SQL dieksekusi sekaligus. Catatan Parameter ini hanya dapat digunakan untuk pengujian dan menjalankan alur di lingkungan pengembangan.
USE_GATEWAY	Menentukan apakah pekerjaan dikirim melalui kluster Gateway. Nilai yang valid: `true`: Kirim pekerjaan melalui kluster Gateway. `false`: Jangan kirim pekerjaan melalui kluster Gateway. Pekerjaan dikirim ke node header secara default. Catatan Jika kluster tempat node ini berada tidak terkait dengan kluster Gateway, pekerjaan EMR gagal dikirim jika Anda mengatur parameter ini ke `true`.
Lainnya	Anda dapat menambahkan parameter SPARK kustom dalam konfigurasi lanjutan. Misalnya, `"spark.eventLog.enabled":false`. DataWorks secara otomatis menambahkan parameter ke kode yang dikirim ke kluster EMR dalam format: `--conf key=value`. Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Menetapkan parameter Spark global. Catatan Untuk mengaktifkan kontrol akses Ranger, tambahkan konfigurasi `spark.hadoop.fs.oss.authorization.method=ranger` di Menetapkan parameter Spark global untuk memastikan kontrol akses Ranger berlaku.

Jalankan tugas SQL

Di bilah alat, klik ikon . Di kotak dialog Parameters, pilih kelompok sumber daya penjadwalan yang telah Anda buat lalu klik Run.
Catatan
- Untuk mengakses sumber daya komputasi di jaringan publik atau VPC, Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas jaringan dengan sumber daya komputasi. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
- Untuk mengubah kelompok sumber daya untuk tugas, klik ikon Run With Parameters dan pilih kelompok sumber daya target.
- Saat menggunakan node EMR Spark untuk mengkueri data, maksimal 10.000 catatan data dapat dikembalikan, dan ukuran total data tidak boleh melebihi 10 MB.
Klik ikon untuk menyimpan pernyataan SQL.
(Opsional) Lakukan pengujian asap.
Jika Anda ingin melakukan pengujian asap di lingkungan pengembangan, Anda dapat melakukannya saat mengirimkan node atau setelah node dikirimkan. Untuk informasi selengkapnya, lihat Melakukan pengujian asap.

Langkah 3: Konfigurasi penjadwalan node

Jika Anda ingin sistem menjalankan tugas pada node secara berkala, klik Properties di panel navigasi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Ikhtisar.

Catatan

Langkah 4: Publikasikan tugas node

Setelah tugas pada node dikonfigurasi, Anda harus meng-commit dan menerapkan tugas tersebut. Setelah Anda meng-commit dan menerapkan tugas, sistem akan menjalankan tugas tersebut secara berkala berdasarkan konfigurasi penjadwalan.

Klik ikon di bilah alat atas untuk menyimpan tugas.
Klik ikon di bilah alat atas untuk meng-commit tugas.
Di kotak dialog Submit, konfigurasikan parameter Change description. Lalu, tentukan apakah akan meninjau kode tugas setelah Anda meng-commit tugas berdasarkan kebutuhan bisnis Anda.
Catatan
- Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properties sebelum meng-commit tugas.
- Anda dapat menggunakan fitur tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi tugas yang disebabkan oleh kode tugas yang tidak valid. Jika Anda mengaktifkan fitur tinjauan kode, kode tugas yang dikirimkan hanya dapat diterapkan setelah kode tugas tersebut lulus tinjauan kode. Untuk informasi selengkapnya, lihat Tinjauan kode.

Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas di lingkungan produksi setelah meng-commit tugas. Untuk menerapkan tugas pada node, klik Deploy di pojok kanan atas tab konfigurasi node. Untuk informasi selengkapnya, lihat Menerapkan node.

Operasi lainnya

Setelah Anda meng-commit dan menerapkan tugas, tugas tersebut akan dijalankan secara berkala berdasarkan konfigurasi penjadwalan. Anda dapat mengklik Operation Center di pojok kanan atas tab konfigurasi node yang sesuai untuk membuka Operation Center dan melihat status penjadwalan tugas. Untuk informasi selengkapnya, lihat Melihat dan mengelola tugas yang dipicu otomatis.

FAQ

Mengapa terjadi kesalahan "DlfMetaStoreClientFactory not found" saat saya menjalankan spark-submit dalam mode YARN-Cluster untuk node EMR Spark setelah Kerberos diaktifkan di kluster EMR?
T: Eksekusi node melebihi batas waktu. Apa yang harus saya lakukan?
J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar sumber daya komputasi untuk menginisialisasi sumber daya. Di kotak dialog yang muncul, klik Re-initialize dan verifikasi bahwa inisialisasi berhasil.

DataWorks：Buat node EMR Spark

Prasyarat

Batasan

Catatan

Persiapan: Kembangkan tugas Spark dan dapatkan paket JAR

Langkah 1: Buat node EMR Spark

Langkah 2: Kembangkan tugas Spark

Skenario 1: Unggah lalu rujuk sumber daya JAR EMR

Jika paket JAR berukuran kurang dari 500 MB

Jika paket JAR berukuran 500 MB atau lebih besar

Skenario 2: Langsung merujuk sumber daya OSS

Tambahkan dependensi pom

Rujuk plugin terkait

(Opsional) Konfigurasi parameter lanjutan

Kluster DataLake/Kluster kustom: EMR on ECS

Kluster EMR Serverless Spark

Kluster Spark: EMR ON ACK

Kluster Hadoop: EMR on ECS

Jalankan tugas SQL

Langkah 3: Konfigurasi penjadwalan node

Langkah 4: Publikasikan tugas node

Operasi lainnya

FAQ

Referensi