DataWorks memungkinkan Anda mendaftarkan cluster E-MapReduce (EMR) DataLake ke dalam ruang kerja DataWorks dan membuat node EMR seperti node EMR Hive, EMR MR, EMR Presto, serta EMR Spark SQL berdasarkan cluster EMR DataLake. Anda dapat mengonfigurasi alur kerja EMR, menjadwalkan node secara berkala, atau mengelola metadata dalam alur kerja. Fitur-fitur ini membantu menghasilkan data secara efisien. Topik ini menjelaskan konfigurasi optimal dari cluster EMR DataLake yang digunakan saat menjalankan node EMR di DataWorks.
Informasi latar belakang
Anda dapat memilih komponen EMR yang berbeda saat menjalankan node EMR di DataWorks. Komponen-komponen tersebut memiliki konfigurasi optimal yang berbeda untuk menjalankan node EMR di DataWorks. Pilih komponen EMR sesuai dengan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat bagian Konfigurasi Komponen EMR dalam topik ini.
Saat menjalankan node EMR di DataWorks, Anda dapat memilih metode penyimpanan metadata berdasarkan mode tempat ruang kerja Anda berjalan. Untuk informasi lebih lanjut, lihat bagian Pilih Metode Penyimpanan Metadata dalam topik ini.
Untuk informasi lebih lanjut tentang tindakan pencegahan dan proses pengembangan node EMR di DataWorks berdasarkan cluster EMR DataLake, lihat Catatan Penggunaan untuk Pengembangan Tugas EMR di DataWorks.
Konfigurasi komponen EMR
Kyuubi
Saat mengonfigurasi Kyuubi di lingkungan produksi, disarankan untuk mengatur ukuran memori
kyuubi_java_optsmenjadi 10g atau lebih besar, serta mengatur ukuran memorikyuubit_beeline_optsmenjadi 2g atau lebih besar.Spark
Ukuran memori default Spark relatif kecil. Anda dapat menjalankan perintah
spark-submituntuk menyesuaikan ukuran memori default sesuai kebutuhan bisnis Anda.Anda dapat mengonfigurasi item konfigurasi Spark berikut berdasarkan skala cluster EMR Anda:
spark.driver.memory,spark.driver.memoryOverhead, danspark.executor.memory.
nullHanya node EMR Hive, node EMR Spark, dan node EMR Spark SQL di DataWorks yang dapat digunakan untuk menghasilkan garis keturunan. Node EMR Hive dapat menghasilkan garis keturunan tingkat tabel dan kolom, sedangkan node EMR berbasis Spark hanya dapat menghasilkan garis keturunan tingkat tabel.
Untuk node EMR berbasis Spark, hanya node yang menggunakan Spark 2.x yang dapat menghasilkan garis keturunan.
Untuk informasi lebih lanjut tentang cara mengonfigurasi Spark, lihat Manajemen Memori Spark.
HDFS
Anda dapat mengonfigurasi item konfigurasi HDFS berikut berdasarkan skala cluster EMR Anda:
hadoop_namenode_heapsize,hadoop_datanode_heapsize,hadoop_secondary_namenode_heapsize, danhadoop_namenode_opts.
Pilih metode penyimpanan metadata
Untuk menerapkan mekanisme isolasi antara lingkungan pengembangan dan produksi ruang kerja DataWorks dalam mode standar, Anda harus mendaftarkan satu cluster EMR di lingkungan pengembangan dan cluster EMR lainnya di lingkungan produksi pada halaman Data Sources di SettingCenter. Untuk memenuhi persyaratan isolasi data, metadata dari dua cluster EMR harus disimpan menggunakan dua database ApsaraDB RDS yang berbeda.