Konfigurasikan parameter Spark global untuk tugas EMR di DataWorks - DataWorks

Anda dapat mengonfigurasi parameter Spark global di tingkat ruang kerja untuk layanan DataWorks. Parameter ini digunakan secara default untuk menjalankan tugas. Untuk informasi lebih lanjut tentang konfigurasi parameter Spark global kustom, lihat Apache Spark - Mesin terpadu untuk analitik data skala besar. Anda juga dapat menentukan apakah parameter Spark global yang dikonfigurasi di tingkat ruang kerja memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi untuk menjalankan satu tugas dalam layanan DataWorks tertentu seperti DataStudio, DataAnalysis, atau Operation Center. Topik ini menjelaskan cara mengonfigurasi parameter Spark global.

Informasi latar belakang

Apache Spark adalah mesin analitik yang memproses sejumlah besar data. Di DataWorks, Anda dapat menggunakan salah satu dari metode berikut untuk mengonfigurasi parameter Spark yang digunakan untuk menjadwalkan node:

Metode 1: Konfigurasikan parameter Spark global
Anda dapat mengonfigurasi parameter Spark global yang digunakan oleh layanan DataWorks untuk menjalankan tugas EMR di tingkat ruang kerja, serta menentukan apakah parameter Spark global memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi untuk menjalankan satu tugas dalam layanan DataWorks yang sama. Untuk informasi lebih lanjut, lihat bagian Konfigurasikan parameter Spark global dalam topik ini.
Metode 2: Konfigurasikan parameter Spark untuk menjalankan satu tugas dalam layanan DataWorks
- Di Data Studio, Anda dapat mengonfigurasi parameter properti Spark untuk tugas node Hive dan Spark individu di bagian Scheduling di sisi kanan halaman pengeditan node.
- Anda tidak dapat mengonfigurasi properti Spark yang ingin digunakan untuk menjalankan satu tugas di layanan DataWorks lainnya.

Batasan

Anda hanya dapat menggunakan akun dan peran berikut untuk mengonfigurasi parameter Spark global:
- Akun Alibaba Cloud
- Pengguna RAM atau Peran RAM yang dilampirkan dengan AliyunDataWorksFullAccess kebijakan
- Pengguna RAM yang ditetapkan dengan Workspace Administrator.
Parameter Spark hanya berlaku untuk EMR Spark, EMR Spark SQL, dan EMR Spark Streaming nodes.
Catatan
Jika Anda ingin mengaktifkan kontrol izin Ranger untuk Spark di DataWorks, tambahkan spark.hadoop.fs.oss.authorization.method=ranger saat Anda mengonfigurasi parameter Spark global untuk memastikan bahwa kontrol izin Ranger berlaku.
Anda dapat memperbarui konfigurasi terkait Spark di halaman SettingCenter di Konsol DataWorks atau di Konsol EMR. Jika konfigurasi properti Spark yang sama berbeda antara Konsol DataWorks dan Konsol EMR, konfigurasi properti Spark pada halaman SettingCenter di Konsol DataWorks digunakan untuk tugas yang Anda komit di DataWorks.
Anda dapat mengonfigurasi parameter Spark global hanya untuk Data Studio, Kualitas Data, DataAnalysis, dan Operation Center.

Prasyarat

Kluster EMR terdaftar ke DataWorks. Untuk informasi lebih lanjut, lihat Data Studio: Mengikat Sumber Daya Komputasi EMR.

Konfigurasikan parameter Spark global

Pergi ke halaman untuk mengonfigurasi parameter Spark global.
1. Pergi ke halaman SettingCenter.
  Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
2. Di panel navigasi sisi kiri halaman SettingCenter, klik Computing Resources.
3. Di halaman Kluster Open Source, temukan kluster EMR yang diinginkan dan klik tab Spark-related Parameter.

Konfigurasikan parameter Spark global.

Klik Edit Spark-related Parameter di pojok kanan atas tab Parameter Terkait Spark untuk mengonfigurasi parameter Spark global dan prioritas parameter untuk layanan DataWorks.

Catatan

Konfigurasi ini berlaku secara global di ruang kerja. Anda harus mengonfirmasi ruang kerja sebelum mengonfigurasi parameter.

Parameter

Deskripsi

Spark Property Name and Spark Property Value

Properti Spark yang ingin Anda konfigurasikan untuk menjalankan tugas EMR dalam layanan DataWorks. Anda dapat mengonfigurasi properti Spark dengan merujuk ke Konfigurasi Spark dan Menjalankan Spark di Kubernetes.

Global Settings Take Precedence

Menentukan apakah konfigurasi global lebih diprioritaskan daripada konfigurasi terpisah untuk satu tugas dalam layanan DataWorks. Jika Anda memilih kotak centang ini, properti Spark yang dikonfigurasi secara global digunakan saat tugas pada node dijalankan.

Konfigurasi global: Pergi ke halaman SettingCenter. Di panel navigasi sisi kiri, klik Computing Resources. Di halaman Kluster Open Source, temukan kluster EMR yang diinginkan dan klik tab Spark-related Parameter.
Catatan
Anda hanya dapat mengonfigurasi parameter Spark global untuk Data Studio, Kualitas Data, DataAnalysis, dan Operation Center.
Konfigurasi terpisah untuk tugas tunggal dalam layanan DataWorks:
- Di Data Studio, Anda dapat mengonfigurasi parameter properti Spark untuk tugas node Hive dan Spark individu di bagian Scheduling di sisi kanan halaman pengeditan node.
- Anda tidak dapat mengonfigurasi properti Spark yang ingin Anda gunakan untuk menjalankan satu tugas di layanan DataWorks lainnya.