Node EMR Spark Streaming - DataWorks

Node EMR Spark Streaming memproses data streaming real-time ber-throughput tinggi dan menyediakan toleransi kesalahan, sehingga Anda dapat dengan cepat pulih dari kegagalan aliran data. Topik ini menjelaskan cara membuat dan menggunakan node EMR Spark Streaming untuk pengembangan data.

Prasyarat

Anda telah membuat kluster Alibaba Cloud E-MapReduce (EMR) dan mendaftarkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi EMR.
(Opsional, wajib bagi pengguna RAM) Tambahkan pengguna Resource Access Management (RAM) yang bertanggung jawab atas pengembangan tugas ke Ruang Kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, jadi berikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.
Jika Anda menggunakan akun Alibaba Cloud, Anda dapat melewati langkah ini.

Batasan

Anda hanya dapat menjalankan tugas jenis ini pada kelompok sumber daya Serverless (disarankan) atau kelompok sumber daya eksklusif untuk penjadwalan.
Anda tidak dapat menggunakan node EMR Spark Streaming untuk pengembangan tugas pada kluster EMR on ACK Spark.

Prosedur

Pada halaman editor node EMR Spark Streaming, lakukan langkah-langkah pengembangan berikut.

Membuat dan mereferensikan resource EMR JAR

Untuk mereferensikan resource EMR JAR pada kluster DataLake, ikuti langkah-langkah berikut.

Catatan

Jika resource yang dibutuhkan oleh node EMR Spark Streaming terlalu besar untuk diunggah melalui konsol DataWorks, Anda dapat menyimpan resource tersebut di HDFS dan mereferensikannya dalam kode Anda.

spark-submit --master yarn
--deploy-mode cluster
--name SparkPi
--driver-memory 4G
--driver-cores 1
--num-executors 5
--executor-memory 4G
--executor-cores 1
--class org.apache.spark.examples.JavaSparkPi
hdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar 100

Buat resource EMR JAR.
1. Untuk informasi selengkapnya, lihat manajemen sumber daya. Simpan file JAR yang dihasilkan di direktori emr/jars dan klik Click to Upload.
2. Pilih Storage Path, Data Source, dan Resource Group.
3. Klik Save.
Referensikan resource EMR JAR tersebut.
1. Buka node EMR Spark Streaming yang telah Anda buat. Halaman editor kode akan terbuka.
2. Pada bagian manajemen sumber daya di panel navigasi sebelah kiri, temukan resource yang diinginkan, klik kanan, lalu pilih Reference Resource.
3. Setelah Anda mereferensikan resource tersebut, pesan sukses akan muncul di halaman editor kode untuk node EMR Spark Streaming. Berikut ini contoh perintahnya. Pastikan Anda mengganti parameter placeholder seperti paket resource, path, dan nama bucket dengan nilai aktual Anda.
```
##@resource_reference{"examples-1.2.0-shaded.jar"}
--master yarn-cluster --executor-cores 2 --executor-memory 2g --driver-memory 1g --num-executors 2 --class com.aliyun.emr.example.spark.streaming.JavaLoghubWordCount examples-1.2.0-shaded.jar <logService-project> <logService-store> <group> <endpoint> <access-key-id> <access-key-secret>
```

Konfigurasikan perintah pekerjaan

Pada halaman editor node EMR Spark Streaming, masukkan perintah pekerjaan.

spark-submit --master yarn-cluster --executor-cores 2 --executor-memory 2g --driver-memory 1g --num-executors 2 --class com.aliyun.emr.example.spark.streaming.JavaLoghubWordCount examples-1.2.0-shaded.jar <logService-project> <logService-store> <group> <endpoint> <access-key-id> <access-key-secret>

Catatan

Dalam contoh ini, resource yang diunggah ke DataWorks adalah examples-1.2.0-shaded.jar.
Gantilah access-key-id dan access-key-secret dengan ID AccessKey dan AccessKey Secret akun Alibaba Cloud Anda. Untuk mendapatkannya, login ke Konsol DataWorks, arahkan kursor ke gambar profil di pojok kanan atas, lalu klik AccessKey Management.
Node EMR Spark Streaming tidak mendukung komentar dalam kode.

(Opsional) Konfigurasikan parameter lanjutan

Di sisi kanan halaman konfigurasi node, pada tab Schedule, Anda dapat mengonfigurasi parameter yang dijelaskan dalam tabel berikut di bagian EMR Node Parameters > DataWorks Parameters.

Catatan

Parameter lanjutan yang tersedia bervariasi tergantung pada jenis kluster EMR, seperti yang ditunjukkan dalam tabel berikut.
Pada tab Schedule, Anda dapat mengonfigurasi lebih banyak open-source Spark properties di bagian EMR Node Parameters > Spark Parameters.

Kluster DataLake: EMR on ECS

Parameter	Deskripsi
FLOW_SKIP_SQL_ANALYZE	Mode eksekusi pernyataan SQL. Nilai yang valid: `true`: Mengeksekusi beberapa pernyataan SQL setiap kali. `false` (default): Mengeksekusi satu pernyataan SQL setiap kali. Catatan Parameter ini hanya didukung untuk pengujian di lingkungan DataStudio.
queue	Antrian penjadwalan tempat pekerjaan dikirimkan. Nilai default: default. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar.
priority	Prioritas. Nilai default: 1.
Other	Anda dapat menambahkan parameter SparkConf kustom ke konfigurasi lanjutan. Saat Anda mengirimkan pekerjaan, DataWorks secara otomatis menambahkan parameter ini ke perintah. Contohnya: `"spark.driver.memory" : "2g"`. Catatan Untuk mengaktifkan kontrol izin Ranger, tambahkan konfigurasi Konfigurasi parameter Spark global dalam `spark.hadoop.fs.oss.authorization.method=ranger` agar kontrol izin berlaku. Untuk informasi selengkapnya tentang konfigurasi parameter, lihat Konfigurasi parameter Spark global.

Jalankan pekerjaan

Pada bagian Run Configuration di bawah Compute Resources, pilih compute resources dan DataWorks Resource Group.
Catatan
- Anda juga dapat mengonfigurasi Scheduling CUs berdasarkan kebutuhan sumber daya tugas. Nilai default-nya adalah 0.25.
- Untuk mengakses sumber data melalui jaringan publik atau di dalam VPC, Anda harus menggunakan kelompok sumber daya penjadwalan yang lulus uji konektivitas sumber data. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Pilih sumber data yang telah dibuat di kotak dialog parameter pada bilah alat, lalu klik Run.

Untuk menjalankan tugas secara berkala, konfigurasikan properti penjadwalannya. Untuk informasi selengkapnya tentang konfigurasi tersebut, lihat Konfigurasi penjadwalan node.
Setelah mengonfigurasi node, Anda harus menerapkannya. Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.
Setelah tugas diterapkan, Anda dapat melihat status jalannya tugas di Pusat Operasi. Untuk informasi selengkapnya, lihat Memulai Pusat Operasi.