Spark adalah mesin analitik data besar serbaguna yang menawarkan performa tinggi, kemudahan penggunaan, dan banyak digunakan. Anda dapat menggunakan Spark untuk melakukan analisis memori kompleks serta membangun aplikasi analitik data besar dengan latensi rendah. DataWorks menyediakan node Cloudera's Distribution Including Apache Hadoop (CDH) Spark yang memungkinkan Anda mengembangkan dan menjadwalkan tugas Spark secara berkala di DataWorks. Topik ini menjelaskan cara membuat dan menggunakan node CDH Spark.
Prasyarat
Sebuah alur kerja telah dibuat di DataStudio.
Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat sebuah node, Anda harus membuat alur kerja terlebih dahulu. Untuk informasi lebih lanjut, lihat Buat alur kerja.
Cluster CDH Alibaba Cloud telah dibuat dan didaftarkan ke DataWorks.
Sebelum membuat node CDH dan menggunakan node CDH untuk mengembangkan tugas CDH di DataWorks, Anda harus mendaftarkan cluster CDH ke ruang kerja DataWorks. Untuk informasi lebih lanjut, lihat Daftarkan cluster CDH atau CDP ke DataWorks.
(Diperlukan jika Anda menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Development atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat memberikan peran tersebut. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambah anggota ruang kerja dan tetapkan peran kepada mereka.
Grup sumber daya tanpa server telah dibeli dan dikonfigurasi, termasuk asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan grup sumber daya tanpa server.
Batasan
Tugas pada jenis node ini dapat dijalankan pada grup sumber daya tanpa server atau grup sumber daya eksklusif versi lama untuk penjadwalan. Kami merekomendasikan agar Anda menjalankan tugas pada grup sumber daya tanpa server.
Persiapan: Siapkan kode tugas Spark dan dapatkan paket JAR
Sebelum menggunakan DataWorks untuk menjadwalkan tugas CDH Spark, Anda harus menyiapkan kode tugas Spark di CDH dan mengkompilasi kode tersebut untuk menghasilkan paket JAR. Untuk informasi lebih lanjut tentang persiapan kode tugas Spark, lihat Ikhtisar.
Anda harus mengunggah paket JAR yang diperoleh ke konsol DataWorks agar DataWorks dapat menjadwalkan tugas CDH Spark secara berkala.
Langkah 1: Buat Node CDH Spark
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi di sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di halaman DataStudio, temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih .
Di kotak dialog Create Node, konfigurasikan parameter Engine Instance, Path, dan Name.
Klik Confirm. Selanjutnya, Anda dapat menggunakan node yang telah dibuat untuk mengembangkan dan mengonfigurasi tugas.
Langkah 2: Buat dan referensikan sumber daya JAR CDH
Anda dapat merujuk sumber daya paket JAR dalam node CDH Spark yang dibuat, menulis kode untuk node tersebut, dan kemudian menggunakan perintah spark-submit untuk mengirim tugas di node tersebut. Lakukan operasi berikut untuk membuat dan merujuk sumber daya JAR CDH:
Buat sumber daya JAR CDH.
Temukan alur kerja yang diinginkan dan klik CDH. Klik kanan Resource dan pilih . Di kotak dialog Create Resource, klik Upload untuk mengunggah file yang diperlukan.

Rujuk sumber daya JAR CDH.
Pergi ke tab konfigurasi node yang dibuat.
Temukan sumber daya yang ingin dirujuk di bawah Resource di folder CDH, klik kanan nama sumber daya, dan pilih Insert Resource Path. Dalam contoh ini, sumber daya bernama
spark-examples_2.11_2.4.0.jardigunakan.
Jika klausa dalam format
##@resource_reference{""}muncul di tab konfigurasi node, sumber daya berhasil dirujuk. Contoh kode:##@resource_reference{"spark_examples_2.11_2.4.0.jar"} spark_examples_2.11_2.4.0.jarUbah kode node CDH Spark dan tambahkan perintah spark-submit. Kode berikut menunjukkan contohnya.
PentingJangan tambahkan komentar saat menulis kode untuk node CDH Spark. Jika Anda menambahkan komentar, kesalahan akan dilaporkan saat Anda menjalankan tugas di node CDH Spark. Anda harus merujuk ke contoh kode berikut untuk mengedit kode node CDH Spark.
##@resource_reference{"spark-examples_2.11-2.4.0.jar"} spark-submit --class org.apache.spark.examples.SparkPi --master yarn spark-examples_2.11-2.4.0.jar 100Deskripsi parameter:
org.apache.spark.examples.SparkPi: kelas utama tugas dalam paket JAR yang dikompilasi.
spark-examples_2.11-2.4.0.jar: nama paket JAR yang Anda unggah.
Langkah 3: Konfigurasikan properti penjadwalan tugas
Jika Anda ingin sistem secara berkala menjalankan tugas di node tersebut, Anda dapat mengklik Properties di panel navigasi di sebelah kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas berdasarkan kebutuhan bisnis Anda.
Konfigurasikan properti dasar untuk tugas. Untuk informasi lebih lanjut, lihat Konfigurasikan properti dasar.
Konfigurasikan siklus penjadwalan, properti jalankan ulang, dan dependensi penjadwalan. Untuk informasi lebih lanjut, lihat Konfigurasikan properti waktu dan Konfigurasikan dependensi penjadwalan siklus yang sama.
CatatanAnda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum Anda mengirimkan tugas.
Konfigurasikan properti sumber daya untuk node. Untuk informasi lebih lanjut, lihat Konfigurasikan properti sumber daya. Jika node yang Anda buat adalah node pemicu otomatis dan Anda ingin node tersebut mengakses Internet atau virtual private cloud (VPC), Anda harus memilih grup sumber daya untuk penjadwalan yang terhubung ke node. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.
Langkah 4: Debug kode tugas
Opsional. Pilih grup sumber daya dan tetapkan parameter kustom ke variabel.
Klik ikon
di bilah alat atas tab konfigurasi node. Di kotak dialog Parameters, pilih grup sumber daya yang ingin Anda gunakan untuk debug dan menjalankan kode tugas.Jika Anda menggunakan parameter penjadwalan dalam kode tugas Anda, tetapkan parameter penjadwalan ke variabel sebagai nilai dalam kode tugas untuk debugging. Untuk informasi lebih lanjut tentang logika penetapan nilai parameter penjadwalan, lihat Apa perbedaan logika penetapan nilai parameter penjadwalan antara mode Run, Run with Parameters, dan Perform Smoke Testing in Development Environment?
Simpan dan eksekusi pernyataan SQL.
Di bilah alat atas, klik ikon
untuk menyimpan pernyataan SQL. Lalu, klik ikon
untuk mengeksekusi pernyataan SQL.Opsional. Lakukan pengujian asap.
Anda dapat melakukan pengujian asap pada tugas di lingkungan pengembangan saat Anda mengirimkan tugas atau setelah Anda mengirimkan tugas. Untuk informasi lebih lanjut, lihat Lakukan pengujian asap.
Apa yang Harus Dilakukan Selanjutnya
Kirim dan terapkan tugas.
Klik ikon Simpan di bilah alat untuk menyimpan tugas.
Klik ikon Kirim di bilah alat atas untuk mengirimkan tugas.
Di kotak dialog Submit, konfigurasikan parameter Change description.
Klik Confirm.
Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas di lingkungan produksi setelah Anda mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di bilah navigasi atas halaman DataStudio. Untuk informasi lebih lanjut, lihat Terapkan tugas.
Lihat tugas.
Klik Operation Center di sudut kanan atas tab konfigurasi node yang sesuai untuk pergi ke Pusat Operasi di lingkungan produksi.
Lihat tugas yang dijadwalkan. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas pemicu otomatis.
Untuk melihat lebih banyak informasi tentang tugas, klik Operation Center di bilah navigasi atas halaman DataStudio. Untuk informasi lebih lanjut, lihat Ikhtisar.
Skenario
DataWorks menyediakan fitur penjadwalan dan pemantauan tugas yang komprehensif untuk memastikan bahwa tugas Spark Anda dapat berhasil dikirimkan ke kluster CDH untuk dijalankan. Ini menyederhanakan proses O&M tugas dan memastikan manajemen sumber daya yang efisien. Informasi berikut menunjukkan skenario penggunaan spesifik tugas Spark:
Analisis data: Gunakan Spark SQL, Dataset, dan DataFrame API untuk mengumpulkan, memfilter, dan mentransformasi data kompleks serta mendapatkan wawasan cepat tentang data.
Pemrosesan aliran: Gunakan Spark Streaming untuk memproses aliran data real-time dan melakukan analisis serta pengambilan keputusan instan.
Pembelajaran mesin: Gunakan Spark MLlib untuk memproses data, mengekstraksi fitur, serta melakukan pelatihan model dan evaluasi.
Ekstraksi, transformasi, dan pemuatan (ETL) data besar: Lakukan operasi ETL pada dataset besar untuk menyiapkan data bagi gudang data atau sistem penyimpanan lainnya.