Anda dapat mengonfigurasi parameter Spark global di tingkat ruang kerja untuk layanan DataWorks. Parameter ini digunakan secara default untuk menjalankan tugas. Untuk informasi lebih lanjut tentang konfigurasi parameter Spark global kustom, lihat Apache Spark - Mesin terpadu untuk analitik data skala besar. Anda juga dapat menentukan apakah parameter Spark global yang dikonfigurasi di tingkat ruang kerja memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi untuk menjalankan satu tugas dalam layanan DataWorks tertentu seperti DataStudio, DataAnalysis, atau Operation Center. Topik ini menjelaskan cara mengonfigurasi parameter Spark global.
Informasi latar belakang
Apache Spark adalah mesin analitik yang memproses sejumlah besar data. Di DataWorks, Anda dapat menggunakan salah satu dari metode berikut untuk mengonfigurasi parameter Spark yang digunakan untuk menjadwalkan node:
Metode 1: Konfigurasikan parameter Spark global
Anda dapat mengonfigurasi parameter Spark global yang digunakan oleh layanan DataWorks untuk menjalankan tugas EMR di tingkat ruang kerja, serta menentukan apakah parameter Spark global memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi untuk menjalankan satu tugas dalam layanan DataWorks yang sama. Untuk informasi lebih lanjut, lihat bagian Konfigurasikan parameter Spark global dalam topik ini.
Metode 2: Konfigurasikan parameter Spark untuk menjalankan satu tugas dalam layanan DataWorks
Di Data Studio, Anda dapat mengonfigurasi parameter properti Spark untuk tugas node Hive dan Spark individu di bagian Scheduling di sisi kanan halaman pengeditan node.
Anda tidak dapat mengonfigurasi properti Spark yang ingin digunakan untuk menjalankan satu tugas di layanan DataWorks lainnya.
Batasan
Anda hanya dapat menggunakan akun dan peran berikut untuk mengonfigurasi parameter Spark global:
Akun Alibaba Cloud
Pengguna RAM atau Peran RAM yang dilampirkan dengan AliyunDataWorksFullAccess kebijakan
Pengguna RAM yang ditetapkan dengan Workspace Administrator.
Parameter Spark hanya berlaku untuk EMR Spark, EMR Spark SQL, dan EMR Spark Streaming nodes.
CatatanJika Anda ingin mengaktifkan kontrol izin Ranger untuk Spark di DataWorks, tambahkan
spark.hadoop.fs.oss.authorization.method=rangersaat Anda mengonfigurasi parameter Spark global untuk memastikan bahwa kontrol izin Ranger berlaku.Anda dapat memperbarui konfigurasi terkait Spark di halaman SettingCenter di Konsol DataWorks atau di Konsol EMR. Jika konfigurasi properti Spark yang sama berbeda antara Konsol DataWorks dan Konsol EMR, konfigurasi properti Spark pada halaman SettingCenter di Konsol DataWorks digunakan untuk tugas yang Anda komit di DataWorks.
Anda dapat mengonfigurasi parameter Spark global hanya untuk Data Studio, Kualitas Data, DataAnalysis, dan Operation Center.
Prasyarat
Kluster EMR terdaftar ke DataWorks. Untuk informasi lebih lanjut, lihat Data Studio: Mengikat Sumber Daya Komputasi EMR.
Konfigurasikan parameter Spark global
Pergi ke halaman untuk mengonfigurasi parameter Spark global.
Pergi ke halaman SettingCenter.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sisi kiri halaman SettingCenter, klik Computing Resources.
Di halaman Kluster Open Source, temukan kluster EMR yang diinginkan dan klik tab Spark-related Parameter.

Konfigurasikan parameter Spark global.
Klik Edit Spark-related Parameter di pojok kanan atas tab Parameter Terkait Spark untuk mengonfigurasi parameter Spark global dan prioritas parameter untuk layanan DataWorks.
CatatanKonfigurasi ini berlaku secara global di ruang kerja. Anda harus mengonfirmasi ruang kerja sebelum mengonfigurasi parameter.
Parameter
Deskripsi
Spark Property Name and Spark Property Value
Properti Spark yang ingin Anda konfigurasikan untuk menjalankan tugas EMR dalam layanan DataWorks. Anda dapat mengonfigurasi properti Spark dengan merujuk ke Konfigurasi Spark dan Menjalankan Spark di Kubernetes.
Global Settings Take Precedence
Menentukan apakah konfigurasi global lebih diprioritaskan daripada konfigurasi terpisah untuk satu tugas dalam layanan DataWorks. Jika Anda memilih kotak centang ini, properti Spark yang dikonfigurasi secara global digunakan saat tugas pada node dijalankan.
Konfigurasi global: Pergi ke halaman SettingCenter. Di panel navigasi sisi kiri, klik Computing Resources. Di halaman Kluster Open Source, temukan kluster EMR yang diinginkan dan klik tab Spark-related Parameter.
CatatanAnda hanya dapat mengonfigurasi parameter Spark global untuk Data Studio, Kualitas Data, DataAnalysis, dan Operation Center.
Konfigurasi terpisah untuk tugas tunggal dalam layanan DataWorks:
Di Data Studio, Anda dapat mengonfigurasi parameter properti Spark untuk tugas node Hive dan Spark individu di bagian Scheduling di sisi kanan halaman pengeditan node.
Anda tidak dapat mengonfigurasi properti Spark yang ingin Anda gunakan untuk menjalankan satu tugas di layanan DataWorks lainnya.