全部产品
Search
文档中心

DataWorks:Praktik terbaik untuk mengonfigurasi cluster EMR yang digunakan di DataWorks

更新时间:Jun 23, 2025

DataWorks memungkinkan Anda mendaftarkan cluster E-MapReduce (EMR) DataLake ke dalam ruang kerja DataWorks dan membuat node EMR seperti node EMR Hive, EMR MR, EMR Presto, serta EMR Spark SQL berdasarkan cluster EMR DataLake. Anda dapat mengonfigurasi alur kerja EMR, menjadwalkan node secara berkala, atau mengelola metadata dalam alur kerja. Fitur-fitur ini membantu menghasilkan data secara efisien. Topik ini menjelaskan konfigurasi optimal dari cluster EMR DataLake yang digunakan saat menjalankan node EMR di DataWorks.

Informasi latar belakang

  • Anda dapat memilih komponen EMR yang berbeda saat menjalankan node EMR di DataWorks. Komponen-komponen tersebut memiliki konfigurasi optimal yang berbeda untuk menjalankan node EMR di DataWorks. Pilih komponen EMR sesuai dengan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat bagian Konfigurasi Komponen EMR dalam topik ini.

  • Saat menjalankan node EMR di DataWorks, Anda dapat memilih metode penyimpanan metadata berdasarkan mode tempat ruang kerja Anda berjalan. Untuk informasi lebih lanjut, lihat bagian Pilih Metode Penyimpanan Metadata dalam topik ini.

Untuk informasi lebih lanjut tentang tindakan pencegahan dan proses pengembangan node EMR di DataWorks berdasarkan cluster EMR DataLake, lihat Catatan Penggunaan untuk Pengembangan Tugas EMR di DataWorks.

Konfigurasi komponen EMR

  • Kyuubi

    Saat mengonfigurasi Kyuubi di lingkungan produksi, disarankan untuk mengatur ukuran memori kyuubi_java_opts menjadi 10g atau lebih besar, serta mengatur ukuran memori kyuubit_beeline_opts menjadi 2g atau lebih besar.

  • Spark

    • Ukuran memori default Spark relatif kecil. Anda dapat menjalankan perintah spark-submit untuk menyesuaikan ukuran memori default sesuai kebutuhan bisnis Anda.

    • Anda dapat mengonfigurasi item konfigurasi Spark berikut berdasarkan skala cluster EMR Anda: spark.driver.memory, spark.driver.memoryOverhead, dan spark.executor.memory.

    null
    • Hanya node EMR Hive, node EMR Spark, dan node EMR Spark SQL di DataWorks yang dapat digunakan untuk menghasilkan garis keturunan. Node EMR Hive dapat menghasilkan garis keturunan tingkat tabel dan kolom, sedangkan node EMR berbasis Spark hanya dapat menghasilkan garis keturunan tingkat tabel.

    • Untuk node EMR berbasis Spark, hanya node yang menggunakan Spark 2.x yang dapat menghasilkan garis keturunan.

    Untuk informasi lebih lanjut tentang cara mengonfigurasi Spark, lihat Manajemen Memori Spark.

  • HDFS

    Anda dapat mengonfigurasi item konfigurasi HDFS berikut berdasarkan skala cluster EMR Anda: hadoop_namenode_heapsize, hadoop_datanode_heapsize, hadoop_secondary_namenode_heapsize, dan hadoop_namenode_opts.

Pilih metode penyimpanan metadata

Untuk menerapkan mekanisme isolasi antara lingkungan pengembangan dan produksi ruang kerja DataWorks dalam mode standar, Anda harus mendaftarkan satu cluster EMR di lingkungan pengembangan dan cluster EMR lainnya di lingkungan produksi pada halaman Data Sources di SettingCenter. Untuk memenuhi persyaratan isolasi data, metadata dari dua cluster EMR harus disimpan menggunakan dua database ApsaraDB RDS yang berbeda.