Spark adalah mesin analitik terpadu untuk data besar yang dikenal karena performa tinggi, kemudahan penggunaan, dan fleksibilitasnya. Spark mendukung komputasi kompleks dalam memori, sehingga ideal untuk membangun aplikasi analisis data berskala besar dengan latensi rendah. DataWorks menyediakan node EMR Spark yang memungkinkan Anda mengembangkan dan menjadwalkan tugas Spark dengan mudah. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node EMR Spark serta memberikan contoh untuk menunjukkan fitur-fiturnya.
Prasyarat
Sebelum mengembangkan sebuah node, buat gambar kustom berdasarkan citra resmi
dataworks_emr_base_task_poddan gunakan citra tersebut di Data Studio untuk menyesuaikan lingkungan komponen.Sebagai contoh, saat membuat gambar kustom, Anda dapat mengganti paket JAR Spark atau menyertakan
pustaka,file, ataupaket JARtertentu.Anda telah membuat kluster Alibaba Cloud EMR dan mengaitkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio (versi baru): Mengaitkan sumber daya komputasi EMR.
(Opsional) Jika Anda adalah Pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke ruang kerja untuk pengembangan tugas dan telah diberikan peran Developer atau Workspace Administrator. Peran Administrator Ruang Kerja memiliki izin yang luas. Berikan peran ini dengan hati-hati. Untuk informasi lebih lanjut tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.
Jika Anda menggunakan akun Alibaba Cloud, Anda dapat melewati langkah ini.
Jika tugas Anda memerlukan lingkungan pengembangan tertentu, Anda dapat menggunakan fitur gambar kustom di DataWorks untuk membuat gambar kustom yang berisi komponen yang diperlukan. Untuk informasi selengkapnya, lihat Gambar kustom.
Batasan
Jenis node ini hanya dapat dijalankan pada kelompok sumber daya arsitektur tanpa server (disarankan) atau grup sumber daya eksklusif untuk penjadwalan. Untuk menggunakan citra di Data Studio, Anda harus menggunakan kelompok sumber daya arsitektur tanpa server.
Jika Anda ingin mengelola metadata untuk DataLake atau kluster kustom di DataWorks, Anda harus mengonfigurasi EMR-HOOK di kluster tersebut. Untuk informasi selengkapnya, lihat Mengonfigurasi EMR-HOOK untuk Spark SQL.
CatatanJika EMR-HOOK tidak dikonfigurasi di kluster, Anda tidak dapat melihat metadata secara real time, menghasilkan log audit, menampilkan alur data, atau melakukan tugas administrasi terkait EMR di DataWorks.
Kluster EMR on ACK Spark tidak mendukung penampilan alur data. Kluster EMR Serverless Spark mendukung penampilan alur data.
Kluster EMR on ACK Spark dan kluster EMR Serverless Spark hanya mendukung mereferensikan sumber daya OSS menggunakan OSS REF dan mengunggah sumber daya ke OSS. Mengunggah sumber daya ke Sistem File Terdistribusi Hadoop (HDFS) tidak didukung.
Kluster DataLake dan kluster kustom mendukung mereferensikan sumber daya OSS menggunakan OSS REF, mengunggah sumber daya ke OSS, dan mengunggah sumber daya ke HDFS.
Catatan
Jika Anda mengaktifkan kontrol akses Ranger untuk Spark di kluster EMR yang dikaitkan dengan ruang kerja saat ini:
Fitur ini tersedia secara default saat Anda menjalankan tugas Spark yang menggunakan citra default.
Untuk menjalankan tugas Spark yang menggunakan gambar kustom, Anda harus mengajukan tiket ke helpdesk untuk meningkatkan citra agar mendukung fitur ini.
Persiapan: Kembangkan tugas Spark dan peroleh paket JAR
Sebelum menggunakan DataWorks untuk menjadwalkan pekerjaan EMR Spark, Anda harus mengembangkan kode pekerjaan Spark di EMR dan mengompilasi kode tersebut untuk menghasilkan paket JAR. Untuk informasi selengkapnya tentang pengembangan pekerjaan EMR Spark, lihat Ikhtisar Spark.
Anda harus mengunggah paket JAR tugas ke DataWorks untuk menjadwalkan tugas EMR Spark.
Prosedur
Di halaman pengeditan node EMR Spark, kembangkan tugas tersebut.
Kembangkan tugas Spark
Pilih opsi berdasarkan skenario Anda:
Opsi 1: Unggah sumber daya lalu referensikan sumber daya JAR EMR
DataWorks memungkinkan Anda mengunggah sumber daya dari mesin lokal ke DataStudio lalu mereferensikannya. Setelah mengompilasi tugas EMR Spark, peroleh paket JAR. Kami menyarankan Anda menyimpan sumber daya paket JAR berdasarkan ukurannya.
Unggah paket JAR dan buat sebagai sumber daya EMR DataWorks. Kemudian, kirimkan sumber daya tersebut. Anda juga dapat menyimpannya langsung di HDFS EMR. Kluster EMR on ACK Spark dan kluster EMR Serverless Spark tidak mendukung pengunggahan sumber daya ke HDFS.
Jika paket JAR berukuran kurang dari 500 MB
Buat sumber daya JAR EMR.
Jika paket JAR berukuran kurang dari 500 MB, Anda dapat mengunggahnya dari mesin lokal sebagai sumber daya JAR EMR DataWorks. Hal ini memungkinkan manajemen visual yang mudah di konsol DataWorks. Setelah membuat sumber daya, Anda harus mengirimkannya. Untuk informasi selengkapnya, lihat Buat dan gunakan sumber daya EMR.
Unggah paket JAR ke direktori penyimpanan untuk sumber daya JAR menggunakan metode unggah Local. Untuk informasi selengkapnya, lihat Manajemen Sumber Daya.
Klik tombol Upload.
Atur Storage Path, Data Source, dan Resource Group.
Klik tombol Save.

Referensikan sumber daya JAR EMR.
Buka node EMR Spark yang telah dibuat untuk membuka halaman pengeditan kode.
Di panel navigasi sebelah kiri, di bawah Manajemen Sumber Daya, temukan sumber daya yang ingin Anda referensikan, klik kanan sumber daya tersebut, lalu pilih Reference Resource.
Setelah Anda memilih referensi, pernyataan referensi akan otomatis ditambahkan ke editor kode node EMR Spark. Hal ini menunjukkan bahwa sumber daya berhasil direferensikan.
##@resource_reference{"spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar"} spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jarDalam contoh ini,
spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jaradalah nama sumber daya JAR EMR yang diunggah.Ubah kode untuk node EMR Spark agar menambahkan perintah spark-submit. Kode berikut memberikan contohnya.
CatatanEditor node EMR Spark tidak mendukung pernyataan komentar. Anda harus menulis kode tugas seperti pada contoh berikut. Jangan tambahkan komentar. Jika tidak, node akan gagal dijalankan.
##@resource_reference{"spark-examples_2.11-2.4.0.jar"} spark-submit --class org.apache.spark.examples.SparkPi --master yarn spark-examples_2.11-2.4.0.jar 100Catatanorg.apache.spark.examples.SparkPi: Kelas utama pekerjaan dalam paket JAR yang telah dikompilasi.spark-examples_2.11-2.4.0.jar: Nama sumber daya JAR EMR yang diunggah.Untuk parameter lainnya, Anda dapat menggunakan nilai dari contoh di atas tanpa modifikasi, atau jalankan perintah
spark-submit --helpuntuk melihat bantuan penggunaan dan mengubah perintah spark-submit sesuai kebutuhan.Untuk menggunakan parameter sederhana pada perintah spark-submit di node Spark, Anda harus menambahkannya ke kode Anda. Misalnya,
--executor-memory 2G.Node Spark hanya mendukung pengiriman pekerjaan menggunakan Yarn Cluster.
Untuk tugas yang dikirimkan menggunakan spark-submit, kami menyarankan Anda mengatur mode deploy ke mode kluster, bukan mode klien.
Jika paket JAR berukuran 500 MB atau lebih besar
Buat sumber daya JAR EMR.
Jika paket JAR berukuran 500 MB atau lebih besar, Anda tidak dapat mengunggahnya dari mesin lokal sebagai sumber daya DataWorks. Kami menyarankan Anda menyimpan paket JAR langsung di HDFS EMR dan mencatat jalur penyimpanannya. Hal ini memungkinkan Anda mereferensikan jalur tersebut saat menjadwalkan tugas Spark di DataWorks.
Unggah paket JAR ke direktori penyimpanan untuk sumber daya JAR menggunakan opsi unggah Local. Untuk informasi selengkapnya, lihat Manajemen Sumber Daya.
Klik Click To Upload untuk mengunggah file JAR.
Atur Storage Path, Data Source, dan Resource Group.
Klik tombol Save.

Referensikan sumber daya JAR EMR.
Jika paket JAR disimpan di HDFS, Anda dapat mereferensikannya dengan menentukan jalurnya di kode node EMR Spark.
Klik ganda node EMR Spark yang telah dibuat untuk membuka halaman editor kode node tersebut.
Tulis perintah spark-submit. Kode berikut memberikan contohnya.
spark-submit --master yarn --deploy-mode cluster --name SparkPi --driver-memory 4G --driver-cores 1 --num-executors 5 --executor-memory 4G --executor-cores 1 --class org.apache.spark.examples.JavaSparkPi hdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar 100Catatanhdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar: Jalur aktual paket JAR di HDFS.
org.apache.spark.examples.JavaSparkPi: Kelas utama tugas dalam paket JAR yang telah dikompilasi.
Parameter lainnya bersifat spesifik untuk kluster EMR Anda dan harus dikonfigurasi sesuai kebutuhan. Anda juga dapat menjalankan perintah
spark-submit --helpuntuk melihat bantuan penggunaan spark-submit dan mengubah perintah spark-submit sesuai kebutuhan.Untuk menggunakan parameter sederhana pada perintah spark-submit di node Spark, Anda harus menambahkannya ke kode Anda. Misalnya,
--executor-memory 2G.Node Spark hanya mendukung pengiriman pekerjaan menggunakan Yarn Cluster.
Untuk tugas yang dikirimkan menggunakan spark-submit, kami menyarankan Anda mengatur mode deploy ke mode kluster, bukan mode klien.
Opsi 2: Langsung mereferensikan sumber daya OSS
Anda dapat langsung mereferensikan sumber daya OSS dari node saat ini menggunakan OSS REF. Saat menjalankan node EMR, DataWorks secara otomatis memuat sumber daya OSS yang ditentukan dalam kode untuk penggunaan lokal. Metode ini umum digunakan dalam skenario di mana tugas EMR memerlukan dependensi JAR atau bergantung pada skrip.
Kembangkan sumber daya JAR.
Persiapkan dependensi kode.
Anda dapat melihat dependensi kode yang diperlukan di jalur
/usr/lib/emr/spark-current/jars/pada node master kluster EMR Anda. Contoh berikut menggunakan Spark 3.4.2. Anda harus membuka proyek IntelliJ IDEA yang sudah ada, menambahkan dependensi Project Object Model (POM), dan mereferensikan plugin.Tambahkan dependensi pom
<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.4.2</version> </dependency> <!-- Apache Spark SQL --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.4.2</version> </dependency> </dependencies>Referensikan plugin terkait
<build> <sourceDirectory>src/main/scala</sourceDirectory> <testSourceDirectory>src/test/scala</testSourceDirectory> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> <plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> </configuration> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <version>3.2.2</version> <configuration> <recompileMode>incremental</recompileMode> </configuration> <executions> <execution> <goals> <goal>compile</goal> <goal>testCompile</goal> </goals> <configuration> <args> <arg>-dependencyfile</arg> <arg>${project.build.directory}/.scala_dependencies</arg> </args> </configuration> </execution> </executions> </plugin> </plugins> </build>Kode contoh.
package com.aliyun.emr.example.spark import org.apache.spark.sql.SparkSession object SparkMaxComputeDemo { def main(args: Array[String]): Unit = { // Buat SparkSession. val spark = SparkSession.builder() .appName("HelloDataWorks") .getOrCreate() // Cetak versi Spark. println(s"Versi Spark: ${spark.version}") } }Setelah mengedit kode Scala, hasilkan paket JAR.
Contoh paket JAR yang dihasilkan adalah
SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar.
Unggah sumber daya JAR.
Setelah selesai mengembangkan kode, masuk ke konsol OSS dan klik Bucket List di panel navigasi sebelah kiri untuk wilayah tersebut.
Klik nama bucket target untuk membuka halaman File Management.
Topik ini menggunakan bucket
onaliyun-bucket-2sebagai contoh.Klik New Directory untuk membuat direktori penyimpanan untuk sumber daya JAR.
Atur Directory Name menjadi
emr/jarsuntuk membuat direktori penyimpanan sumber daya JAR.Unggah sumber daya JAR ke direktori tersebut.
Buka folder tersebut dan klik Upload File. Di bagian Files To Upload, klik Scan Files, tambahkan file
SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar, lalu klik Upload File.
Referensikan sumber daya JAR.
Edit kode yang mereferensikan sumber daya JAR.
Di halaman edit node EMR Spark, edit kode untuk mereferensikan sumber daya JAR.
spark-submit --class com.aliyun.emr.example.spark.SparkMaxComputeDemo --master yarn ossref://onaliyun-bucket-2/emr/jars/SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jarDeskripsi parameter:
Parameter
Deskripsi
classNama lengkap kelas utama yang akan dijalankan.
masterMode eksekusi aplikasi Spark.
Jalur file
ossrefFormatnya adalah
ossref://{endpoint}/{bucket}/{object}endpoint: Titik akhir layanan OSS. Jika parameter endpoint dibiarkan kosong, hanya sumber daya dalam bucket OSS yang berada di wilayah yang sama dengan kluster EMR saat ini yang dapat direferensikan.
Bucket: Wadah di OSS untuk menyimpan objek. Setiap Bucket memiliki nama unik. Anda dapat masuk ke Konsol Manajemen OSS untuk melihat semua Buckets di bawah akun saat ini.
object: Objek tertentu (nama file atau jalur) yang disimpan di Bucket.
Jalankan tugas node EMR Spark.
Setelah selesai mengedit, Anda dapat mengklik ikon
dan memilih kelompok sumber daya arsitektur tanpa server yang telah Anda buat untuk menjalankan node EMR Spark. Setelah tugas selesai, catat applicationIdsdari konsol, sepertiapplication_1730367929285_xxxx.Lihat hasilnya.
Buat node EMR Shell dan jalankan perintah
yarn logs -applicationId application_1730367929285_xxxxdi node tersebut untuk melihat hasil eksekusi:
(Opsional) Konfigurasi parameter lanjutan
Anda dapat mengonfigurasi properti unik yang tercantum dalam tabel berikut di bagian Scheduling Configuration di panel kanan node. Properti tersebut berada di bawah .
CatatanParameter lanjutan yang tersedia bervariasi berdasarkan jenis kluster EMR, seperti yang ditunjukkan dalam tabel berikut.
Untuk properti Spark open-source lainnya, Anda dapat mengonfigurasinya di bawah di bagian Scheduling Configuration di panel kanan node.
Kluster DataLake/Kluster kustom: EMR on ECS
Parameter lanjutan
Deskripsi
queue
Antrian penjadwalan tempat pekerjaan dikirimkan. Antrian default adalah `default`.
Jika Anda mengonfigurasi YARN Resource Queue tingkat ruang kerja saat mendaftarkan kluster EMR ke ruang kerja DataWorks:
Jika Anda menyetel Prioritize Global Configuration ke Yes, tugas Spark akan menggunakan antrian yang dikonfigurasi saat mendaftarkan kluster EMR.
Jika Anda tidak memilihnya, antrian yang dikonfigurasi untuk node EMR Spark akan digunakan saat tugas Spark dijalankan.
Untuk deskripsi EMR YARN, lihat Konfigurasi antrian dasar. Untuk detail konfigurasi antrian saat mendaftarkan kluster EMR, lihat Atur antrian sumber daya YARN global.
priority
Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE
Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
true: Menjalankan beberapa pernyataan SQL sekaligus.false(default): Menjalankan satu pernyataan SQL dalam satu waktu.
CatatanParameter ini hanya dapat digunakan untuk menguji alur kerja di lingkungan pengembangan data.
Lainnya
Anda dapat langsung menambahkan parameter Spark kustom dalam konfigurasi lanjutan. Misalnya, jika Anda menambahkan
spark.eventLog.enabled : false, DataWorks secara otomatis menambahkan parameter tersebut ke kode yang dikirimkan ke kluster EMR dalam format--conf key=value.Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Atur parameter Spark global.
CatatanUntuk mengaktifkan kontrol akses Ranger, tambahkan konfigurasi
spark.hadoop.fs.oss.authorization.method=rangerdi Atur parameter Spark global untuk memastikan kontrol akses Ranger berlaku.
Kluster Spark: EMR on ACK
Parameter lanjutan
Deskripsi
FLOW_SKIP_SQL_ANALYZE
Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
true: Menunjukkan bahwa beberapa pernyataan SQL dijalankan sekaligus.false: Menjalankan satu pernyataan SQL dalam satu waktu.
CatatanParameter ini hanya dapat digunakan untuk menguji alur kerja di lingkungan pengembangan data.
Lainnya
Anda dapat langsung menambahkan parameter Spark kustom dalam konfigurasi lanjutan. Misalnya, DataWorks secara otomatis menambahkan parameter seperti
spark.eventLog.enabled : falseke kode akhir yang dikirim ke kluster EMR dalam format--conf key=value.Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Atur parameter Spark global.
Kluster Hadoop: EMR on ECS
Parameter lanjutan
Deskripsi
queue
Antrian penjadwalan untuk mengirimkan pekerjaan. Antrian default adalah `default`.
Jika Anda mengonfigurasi YARN Resource Queue tingkat ruang kerja saat mendaftarkan kluster EMR ke ruang kerja DataWorks:
Jika Anda Selected Yes untuk Global Configuration Priority, antrian yang dikonfigurasi saat pendaftaran kluster EMR akan digunakan untuk tugas Spark.
Jika tidak dipilih, antrian ditentukan oleh konfigurasi node EMR Spark saat tugas Spark dijalankan.
Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi selengkapnya tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Atur antrian sumber daya YARN global.
priority
Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE
Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
true: Beberapa pernyataan SQL dijalankan sekaligus.false: Satu pernyataan SQL dijalankan dalam satu waktu.
CatatanParameter ini hanya dapat digunakan untuk menguji alur kerja di lingkungan pengembangan data.
USE_GATEWAY
Menentukan apakah pekerjaan untuk node ini dikirimkan melalui kluster gateway. Nilai yang valid:
true: Pekerjaan dikirimkan melalui kluster Gateway.false: Pekerjaan tidak dikirimkan melalui kluster Gateway. Secara default, pekerjaan dikirimkan ke node header.
CatatanJika kluster node ini tidak dikaitkan dengan kluster Gateway dan Anda secara manual mengatur parameter ini ke
true, upaya selanjutnya untuk mengirimkan pekerjaan EMR akan gagal.Lainnya
Anda dapat langsung menambahkan parameter Spark kustom dalam konfigurasi lanjutan. Untuk parameter seperti
spark.eventLog.enabled : false, DataWorks secara otomatis menambahkannya ke kode yang dikirim ke kluster EMR dalam format--conf key=value.Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Atur parameter Spark global.
CatatanUntuk mengaktifkan kontrol akses Ranger, tambahkan konfigurasi
spark.hadoop.fs.oss.authorization.method=rangerseperti yang dijelaskan di Atur parameter Spark global untuk memastikan kontrol akses Ranger berlaku.
Kluster EMR Serverless Spark
Untuk informasi selengkapnya tentang pengaturan parameter, lihat Pengaturan parameter pengiriman pekerjaan Spark.
Parameter lanjutan
Deskripsi
queue
Antrian penjadwalan tempat pekerjaan dikirimkan. Antrian default adalah `dev_queue`.
priority
Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE
Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
true: Menjalankan beberapa pernyataan SQL sekaligus.false: Menunjukkan bahwa satu pernyataan SQL dijalankan setiap kali.
CatatanParameter ini hanya dapat digunakan untuk menguji alur kerja di lingkungan pengembangan data.
SERVERLESS_RELEASE_VERSION
Versi mesin Spark. Secara default, Default Engine Version yang dikonfigurasi untuk kluster di Cluster Management pada Management Center digunakan. Anda dapat mengonfigurasi parameter ini untuk menentukan versi mesin yang berbeda untuk jenis tugas yang berbeda.
SERVERLESS_QUEUE_NAME
Menentukan antrian sumber daya. Secara default, Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management pada Management Center digunakan. Anda dapat menambahkan antrian untuk memenuhi kebutuhan isolasi dan manajemen sumber daya. Untuk informasi selengkapnya, lihat Kelola antrian sumber daya.
Lainnya
Anda dapat langsung menambahkan parameter Spark kustom dalam konfigurasi lanjutan. Misalnya, jika Anda menambahkan
spark.eventLog.enabled : false, DataWorks secara otomatis menambahkan parameter tersebut ke kode yang dikirimkan ke kluster EMR dalam format--conf key=value.Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Atur parameter Spark global.
Jalankan tugas Spark
Di bagian Computing Resource pada Debug Configuration, konfigurasikan Computing Resource dan DataWorks Resource Group.
CatatanAnda juga dapat mengonfigurasi Schedule CUs berdasarkan sumber daya yang diperlukan untuk eksekusi tugas. Nilai default adalah
0.25.Jika Anda ingin mengakses sumber data melalui Internet atau VPC, Anda harus menggunakan kelompok sumber daya penjadwalan yang terhubung ke sumber data tersebut. Untuk informasi selengkapnya, lihat Solusi Konektivitas Jaringan.
Di kotak dialog parameter pada bilah alat, pilih sumber data lalu klik Run untuk menjalankan pekerjaan Spark.
Jika Anda ingin menjalankan tugas node secara berkala, konfigurasikan properti penjadwalan sesuai kebutuhan. Untuk informasi selengkapnya, lihat Penjadwalan Node.
CatatanUntuk menyesuaikan lingkungan komponen, Anda dapat membuat gambar kustom berdasarkan citra resmi
dataworks_emr_base_task_poddan gunakan citra tersebut di Data Studio.Sebagai contoh, saat membuat gambar kustom, Anda dapat mengganti paket JAR Spark atau menyertakan
pustaka,file, ataupaket JARtertentu.Setelah mengonfigurasi node, sebarkan node tersebut. Untuk informasi selengkapnya, lihat Penyebaran Node/Alur Kerja.
Setelah menyebar node, Anda dapat melihat status eksekusi node di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.
FAQ
T: Eksekusi node habis waktu. Apa yang harus saya lakukan?
J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar sumber daya komputasi untuk menginisialisasi sumber daya. Di kotak dialog yang muncul, klik Re-initialize dan verifikasi bahwa inisialisasi berhasil.

