Node CDH Spark - DataWorks

Spark adalah mesin analitik data besar yang serbaguna, berkinerja tinggi, dan mudah digunakan untuk analisis kompleks dalam memori serta aplikasi data berskala besar dengan latensi rendah. DataWorks menyediakan node CDH Spark untuk mengembangkan dan menjadwalkan task Spark secara berkala. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node tersebut.

Prasyarat

Anda telah membuat kluster Alibaba Cloud CDH dan mengaitkannya ke ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi CDH.
Penting
Pastikan komponen Spark telah diinstal pada kluster CDH Anda dan informasinya telah dikonfigurasi saat Anda mendaftarkan kluster tersebut di DataWorks.
(Opsional) Jika Anda menggunakan pengguna RAM, tambahkan pengguna tersebut ke ruang kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang cara menambahkan anggota ke ruang kerja, lihat Menambahkan anggota ke ruang kerja.
Catatan
Jika Anda menggunakan akun root, Anda dapat melewati langkah ini.
Anda telah mengonfigurasi sumber data Hive di DataWorks dan lulus uji konektivitas. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.

Menyiapkan task Spark dan paket JAR

Sebelum menggunakan DataWorks untuk menjadwalkan task CDH Spark, Anda harus mengembangkan kode task Spark di lingkungan CDH dan mengompilasinya menjadi paket JAR. Untuk informasi selengkapnya tentang pengembangan task CDH Spark, lihat Ikhtisar.

Membuat resource CDH JAR

Unggah paket JAR task Anda ke DataWorks agar dapat dijadwalkan secara berkala pada kluster CDH Anda.

Untuk informasi selengkapnya, lihat Resource Management. Klik Upload untuk mengunggah paket JAR dari komputer lokal Anda.
Pilih Storage Path, Data Source, dan Resource Group.
Klik Save.

Membuat node

Untuk petunjuknya, lihat Membuat node.

Mengembangkan node

Pada tab konfigurasi node CDH Spark, lakukan langkah-langkah berikut.

Referensi resource CDH JAR

Buka node CDH Spark yang telah Anda buat dan buka editor kode.
Pada panel Resource Management di sebelah kiri, temukan resource yang ingin Anda gunakan, klik kanan resource tersebut, lalu pilih Reference Resource.
Setelah Anda mereferensikan resource tersebut, pernyataan dalam format ##@resource_reference{""} akan muncul di editor kode, yang menandakan bahwa resource berhasil direferensikan. Kode berikut memberikan contoh. Gantilah informasi contoh tersebut dengan informasi Anda sendiri.

##@resource_reference{"spark_examples_2.11_2.4.0.jar"}
spark_examples_2.11_2.4.0.jar

Edit kode node CDH Spark

Ubah kode node CDH Spark untuk menambahkan perintah spark-submit. Kode berikut memberikan contoh:

Penting

Editor node CDH Spark tidak mendukung komentar. Untuk menghindari error eksekusi, pastikan kode Anda sesuai dengan format contoh dan tidak mengandung komentar.

##@resource_reference{"spark-examples_2.11-2.4.0.jar"}
spark-submit --class org.apache.spark.examples.SparkPi --master yarn  spark-examples_2.11-2.4.0.jar 100

Catatan

org.apache.spark.examples.SparkPi: Kelas utama task dalam paket JAR Anda.
spark-examples_2.11-2.4.0.jar: Nama resource CDH JAR yang telah diunggah.

Debug node

Pada bagian Run Configuration Compute Resources, konfigurasikan parameter Compute Resources dan Resource Group.
1. Untuk Compute Resources, pilih nama kluster CDH yang telah Anda daftarkan di DataWorks.
2. Untuk Resource Group, pilih kelompok sumber daya penjadwalan yang memiliki koneksi sumber data yang berhasil. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Catatan
Anda juga dapat menyesuaikan Compute CUs berdasarkan kebutuhan sumber daya task. Nilai default-nya adalah 0.5.
Pada bilah alat di atas editor kode, klik Run.

Langkah selanjutnya

Konfigurasi penjadwalan node: Untuk menjalankan node secara berkala, konfigurasikan Time Property dan properti penjadwalan terkait lainnya di panel Scheduling configuration pada sisi kanan halaman.
Menerbitkan node: Untuk menerbitkan node ke lingkungan produksi, klik ikon . Hanya node yang telah diterbitkan ke lingkungan produksi yang akan dijadwalkan.
Task O&M: Setelah menerbitkan node, Anda dapat memantau eksekusi terjadwalnya di Pusat Operasi. Untuk informasi selengkapnya, lihat Memulai Pusat Operasi.