DataWorks memungkinkan Anda membuat node seperti Hive, MR, Presto, dan Spark SQL berdasarkan mesin komputasi E-MapReduce (EMR). Di konsol DataWorks, Anda dapat mengonfigurasi node EMR, mengaktifkan penjadwalan periodik tugas pada node, dan mengelola metadata node untuk memastikan bahwa data dihasilkan dan dikelola dengan cara yang efisien dan stabil. Topik ini menjelaskan catatan penggunaan untuk pengembangan tugas EMR di DataWorks. Catatan penggunaan mencakup proses pengembangan dasar, deskripsi biaya, persiapan lingkungan, dan manajemen izin.
Informasi latar belakang
EMR merupakan solusi pemrosesan big data yang disediakan oleh Alibaba Cloud.
EMR dikembangkan berdasarkan open source Apache Hadoop dan Apache Spark, memungkinkan Anda menggunakan sistem periferal dalam ekosistem Hadoop dan Spark untuk menganalisis serta memproses data dengan mudah. Alibaba Cloud menyediakan EMR on ECS, EMR on ACK, dan EMR Serverless StarRocks guna memenuhi kebutuhan bisnis pengguna yang berbeda. Untuk informasi lebih lanjut, lihat topik-topik di direktoriIkhtisar Produk.
Jenis kluster EMR yang didukung
Batasan
Jenis tugas: Tugas EMR Flink tidak dapat dijalankan di konsol DataWorks.
Pelaksanaan tugas: Anda bisa menggunakan grup sumber daya serverless (direkomendasikan) atau grup sumber daya eksklusif versi lama untuk penjadwalan untuk menjalankan tugas EMR.
Tata kelola tugas:
Hanya tugas SQL pada node EMR Hive, EMR Spark, dan EMR Spark SQL yang dapat digunakan untuk menghasilkan garis keturunan data. Jika kluster EMR Anda adalah versi V3.43.1, V5.9.1, atau versi minor setelahnya, Anda dapat melihat garis keturunan tingkat tabel dan tingkat kolom dari node yang dibuat berdasarkan kluster tersebut.
CatatanUntuk node EMR berbasis Spark, jika kluster EMR adalah versi V5.8.0, V3.42.0, atau versi minor setelah V5.8.0 atau V3.42.0, node EMR berbasis Spark dapat digunakan untuk melihat garis keturunan tingkat tabel dan tingkat kolom. Jika kluster EMR adalah versi minor sebelum V5.8.0 atau V3.42.0, hanya node EMR berbasis Spark yang menggunakan Spark 2.x yang dapat digunakan untuk melihat garis keturunan tingkat tabel.
Jika Anda ingin mengelola metadata untuk kluster DataLake atau kustom di DataWorks, Anda harus mengonfigurasi EMR-HOOK di kluster terlebih dahulu. Jika Anda tidak mengonfigurasi EMR-HOOK di kluster yang diinginkan, metadata tidak akan ditampilkan secara real-time, log audit tidak akan dihasilkan, dan garis keturunan data tidak akan ditampilkan di DataWorks. Selain itu, tugas tata kelola EMR tidak dapat dijalankan. EMR-HOOK dapat dikonfigurasikan untuk layanan EMR Hive dan EMR Spark SQL. Untuk informasi lebih lanjut, lihat Gunakan fitur ekstensi Hive untuk mencatat garis keturunan data dan informasi akses historis dan Gunakan fitur ekstensi Spark SQL untuk mencatat garis keturunan data dan informasi akses historis.
Wilayah yang didukung: EMR Serverless Spark tersedia di wilayah China (Hangzhou), China (Shanghai), China (Beijing), China (Zhangjiakou), China (Shenzhen), Singapura, Jerman (Frankfurt), dan AS (Silicon Valley).
Untuk kluster EMR yang memiliki autentikasi Kerberos diaktifkan, Anda harus menambahkan aturan masuk port UDP ke grup keamanan kluster EMR untuk blok CIDR vSwitch yang terkait dengan grup sumber daya.
CatatanUntuk menambahkan aturan masuk, lakukan operasi berikut: Masuk ke konsol EMR. Buka tab Basic Information dari kluster EMR Anda. Di bagian Keamanan tab Informasi Dasar, klik ikon
di sebelah kanan parameter Cluster Security Group. Pada tab Security Group Details halaman Grup Keamanan, klik tab Inbound di bagian Access Rule. Pada tab Masuk, klik Add Rule. Setel parameter Protocol Type ke Custom UDP, parameter Port Range ke konfigurasi yang ditentukan dalam file /etc/krb5.confdari kluster EMR Anda, dan parameter Authorization Object ke blok CIDR vSwitch yang terkait dengan grup sumber daya.
Prasyarat
DataWorks telah diaktifkan dan ruang kerja telah dibuat. Untuk informasi lebih lanjut, lihat Aktifkan DataWorks dan Kelola ruang kerja.
Kluster EMR telah dibuat. Untuk informasi lebih lanjut, lihat Buat kluster.
CatatanAnda dapat menggunakan layanan EMR yang berbeda untuk menjalankan tugas EMR di DataWorks. Konfigurasi optimal dari layanan EMR bervariasi. Saat Anda membuat kluster EMR, Anda dapat merujuk ke bagian Lampiran: Saran untuk Konfigurasi Kluster EMR dalam topik ini untuk memilih layanan EMR berdasarkan kebutuhan bisnis Anda.
Sebuah grup sumber daya serverless DataWorks dibeli.
Secara default, grup sumber daya DataWorks tidak terhubung ke jaringan layanan cloud lain setelah grup sumber daya dibeli. Sebuah kluster EMR harus terhubung ke grup sumber daya tertentu sebelum Anda dapat menggunakan kluster EMR tersebut.
CatatanDataWorks merilis grup sumber daya serverless yang digunakan untuk tujuan umum, dan kami menyarankan Anda untuk membeli jenis grup sumber daya ini. Grup sumber daya serverless cocok untuk skenario di mana berbagai jenis tugas digunakan, seperti sinkronisasi data dan penjadwalan tugas. Untuk informasi tentang cara membeli grup sumber daya serverless, lihat Buat dan Gunakan Grup Sumber Daya Serverless. Pengguna baru hanya dapat membeli grup sumber daya serverless.
Jika Anda telah membeli grup sumber daya eksklusif versi lama, Anda juga dapat menggunakan grup sumber daya tersebut untuk menjalankan tugas EMR. Grup sumber daya eksklusif versi lama yang dapat Anda pilih bervariasi berdasarkan jenis tugas yang ingin Anda jalankan. Misalnya, untuk menjalankan tugas sinkronisasi data, Anda harus menggunakan grup sumber daya eksklusif untuk Integrasi Data. Untuk menjalankan tugas penjadwalan data, Anda harus menggunakan grup sumber daya eksklusif untuk penjadwalan. Untuk informasi lebih lanjut, lihat topik-topik di direktori Gunakan Grup Sumber Daya Versi Lama.
Catatan penggunaan
Tabel berikut menjelaskan catatan penggunaan untuk pengembangan tugas E-MapReduce (EMR) di DataWorks.
No. | Deskripsi |
Saat Anda mengembangkan tugas EMR di DataWorks, Anda dikenakan biaya tidak hanya untuk sumber daya DataWorks tetapi juga untuk sumber daya layanan cloud lainnya dari Alibaba Cloud. | |
Sebelum Anda mengembangkan tugas EMR di DataWorks, Anda harus membeli edisi DataWorks tertentu dan grup sumber daya berdasarkan kebutuhan bisnis Anda, mendaftarkan kluster EMR, dan menyiapkan lingkungan pengembangan. | |
DataWorks menyediakan sistem manajemen izin yang komprehensif bagi Anda untuk mengelola izin tingkat produk dan izin tingkat modul. Anda dapat memberikan izin berbeda kepada pengguna yang berbeda berdasarkan kebutuhan bisnis Anda untuk menerapkan manajemen izin yang mendetail. | |
DataWorks Data Integration memungkinkan Anda membaca data dari dan menulis data ke EMR Hive. DataWorks menyediakan berbagai skenario sinkronisasi data, seperti sinkronisasi batch dan sinkronisasi penuh serta inkremental. | |
DataWorks menyediakan layanan Pemodelan Data yang digunakan untuk menyusun dan mengelola volume data besar yang tidak terstruktur dan kompleks. DataWorks juga menyediakan layanan DataStudio untuk pengembangan tugas yang dijadwalkan untuk dijalankan. Setelah tugas-tugas tersebut dikembangkan, Anda dapat pergi ke Pusat Operasi untuk memantau dan melakukan operasi O&M pada tugas-tugas tersebut. | |
DataWorks memungkinkan Anda mengelola metadata EMR dan mengatur data EMR. | |
DataWorks DataAnalysis menyediakan kemampuan analisis data EMR dan berbagi layanan. | |
DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda cepat terintegrasi dengan DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses-proses terkait data, mengatur data, melakukan operasi O&M pada data, dan merespons dengan cepat terhadap perubahan status bisnis di sistem aplikasi. |
Penagihan
1. Biaya untuk sumber daya DataWorks
Bagian ini menjelaskan biaya yang termasuk dalam tagihan DataWorks Anda. Untuk informasi tentang item yang dapat ditagih dari DataWorks, lihat Ikhtisar Penagihan.
Biaya | Deskripsi |
Biaya untuk edisi DataWorks yang Anda gunakan | Anda harus mengaktifkan DataWorks sebelum Anda dapat mengembangkan tugas di DataWorks. Jika Anda mengaktifkan Edisi Standar DataWorks, Edisi Profesional DataWorks, atau Edisi Enterprise DataWorks, Anda akan dikenakan biaya untuk edisi tersebut saat Anda membelinya. |
Biaya untuk sumber daya penjadwalan yang Anda gunakan untuk menjadwalkan tugas | Setelah tugas-tugas dikembangkan, sumber daya penjadwalan diperlukan untuk menjadwalkan tugas-tugas tersebut. Anda dapat membeli grup sumber daya serverless atau grup sumber daya eksklusif versi lama untuk penjadwalan, dan membayar untuk grup sumber daya tersebut. Kami menyarankan Anda untuk membeli grup sumber daya serverless. Catatan Grup sumber daya serverless yang dibeli dapat digunakan untuk penjadwalan tugas dan sinkronisasi data. |
Biaya untuk sumber daya yang Anda gunakan untuk mensinkronkan data | Tugas sinkronisasi data mengonsumsi sumber daya penjadwalan dan sumber daya sinkronisasi. Anda dapat membeli grup sumber daya serverless atau grup sumber daya eksklusif versi lama untuk Integrasi Data, dan membayar untuk grup sumber daya tersebut. Kami menyarankan Anda untuk membeli grup sumber daya serverless. |
2. Biaya untuk sumber daya layanan cloud lainnya dari Alibaba Cloud
Bagian ini menjelaskan biaya yang tidak termasuk dalam tagihan DataWorks Anda.
Anda dikenakan biaya untuk sumber daya layanan cloud lainnya dari Alibaba Cloud berdasarkan logika penagihan layanan cloud Alibaba Cloud. Untuk informasi lebih lanjut, lihat dokumentasi penagihan layanan cloud Alibaba Cloud. Untuk informasi tentang rincian penagihan mesin komputasi EMR, lihat topik-topik di direktori Penagihan.
Biaya | Deskripsi |
Biaya database | Saat Anda menjalankan tugas sinkronisasi data untuk membaca data dari dan menulis data ke database, biaya database mungkin akan timbul. |
Biaya komputasi dan penyimpanan | Saat Anda menjalankan tugas jenis mesin komputasi tertentu, biaya komputasi dan penyimpanan untuk jenis mesin komputasi tersebut mungkin akan timbul. |
Biaya layanan jaringan | Saat Anda membangun koneksi jaringan antara DataWorks dan layanan terkait lainnya, biaya layanan jaringan mungkin akan timbul. Misalnya, jika Anda menggunakan layanan seperti Express Connect, Elastic IP Address (EIP), dan Internet Shared Bandwidth untuk membangun koneksi jaringan antara DataWorks dan layanan terkait lainnya, Anda mungkin akan dikenakan biaya layanan jaringan. |
Persiapan Lingkungan
1. Persiapan Sumber Daya
Item | Deskripsi | Referensi |
Pilih edisi DataWorks | DataWorks Edisi Dasar memungkinkan Anda melakukan operasi dasar berikut selama pengembangan data EMR: migrasi data ke cloud, pengembangan data, penjadwalan tugas EMR, dan tata kelola data. Jika Anda ingin menggunakan solusi tata kelola data dan keamanan data yang lebih canggih, Anda dapat membeli edisi lanjutan DataWorks, seperti DataWorks Edisi Standar, DataWorks Edisi Profesional, atau DataWorks Edisi Enterprise. | |
Pilih grup sumber daya | Anda hanya dapat menggunakan grup sumber daya serverless atau grup sumber daya eksklusif versi lama untuk menjalankan tugas EMR. Kami menyarankan Anda untuk menggunakan grup sumber daya serverless. |
2. Persiapan Lingkungan Pengembangan
Sebelum mengembangkan tugas EMR di DataStudio, Anda harus mendaftarkan kluster EMR dengan ruang kerja DataWorks dan menambahkan pengguna sebagai anggota ruang kerja untuk memfasilitasi pengembangan data kolaboratif.
Item | Deskripsi | Referensi |
Siapkan lingkungan sinkronisasi data | Sebelum Anda menjalankan tugas sinkronisasi data berdasarkan layanan EMR, Anda harus menambahkan layanan EMR ke DataWorks sebagai sumber data. | |
Siapkan lingkungan untuk pengembangan data dan analisis | Sebelum Anda mengaktifkan DataWorks untuk menjadwalkan tugas EMR secara berkala, Anda harus menambahkan kluster EMR ke DataWorks sebagai sumber data. Kemudian, Anda dapat menggunakan sumber data tersebut untuk melakukan operasi seperti pengembangan data, analisis data, dan penjadwalan tugas periodik. | |
Siapkan lingkungan pengembangan kolaboratif | Untuk memastikan bahwa pengguna RAM dapat berkolaborasi satu sama lain untuk mengembangkan data di ruang kerja, Anda harus melakukan operasi berikut:
|
Manajemen Izin
DataWorks menyediakan sistem manajemen izin komprehensif yang memungkinkan Anda mengelola izin tingkat produk dan modul. Berdasarkan kebutuhan bisnis, Anda dapat memberikan izin berbeda kepada pengguna yang berbeda. Detail manajemen izin:
1. Manajemen izin akses data
Anda dapat mengonfigurasi pemetaan antara pengguna RAM yang ditambahkan ke ruang kerja DataWorks sebagai anggota untuk mengembangkan tugas EMR dan akun kluster EMR, sehingga pengguna RAM memperoleh izin dari akun kluster EMR yang dipetakan. Untuk informasi lebih lanjut, lihat Konfigurasikan pemetaan antara akun anggota penyewa dan akun kluster EMR.
DataWorks memungkinkan Anda mengelola izin pada Data Lake Formation (DLF) secara visual, seperti meminta izin, memproses permintaan, dan melakukan audit. Fitur ini membantu Anda mengelola izin pada danau data yang sepenuhnya dikelola secara terpusat. Jika DLF ditentukan sebagai layanan penyimpanan metadata untuk sumber data EMR yang ditambahkan ke ruang kerja Anda, Anda dapat mengajukan dan mengelola izin melalui Pusat Keamanan di DataWorks. Untuk informasi lebih lanjut, lihat Kelola izin pada DLF.
2. Manajemen izin pada layanan dan fitur
Sebelum Anda mengembangkan data di DataWorks sebagai pengguna RAM, Anda harus menetapkan peran tingkat ruang kerja kepada pengguna RAM untuk memberikan izin tertentu kepada pengguna RAM. Untuk informasi lebih lanjut, lihat Praktik terbaik untuk mengelola izin pengguna RAM.
Anda dapat merujuk ke Kelola izin pada layanan tingkat global untuk mengelola izin pada modul layanan DataWorks, seperti melarang pengguna mengakses Peta Data, dan untuk mengelola izin melakukan operasi di konsol DataWorks, seperti mengizinkan pengguna menghapus ruang kerja.
Anda dapat merujuk ke Kelola izin pada layanan tingkat ruang kerja untuk mengelola izin pada modul layanan tingkat ruang kerja DataWorks, seperti mengizinkan pengguna mengakses DataStudio untuk melakukan operasi pengembangan, dan untuk mengelola izin pada modul layanan tingkat global DataWorks, seperti melarang pengguna mengakses Penjaga Keamanan Data.
Memulai
DataWorks menyediakan beberapa layanan. Anda dapat mengembangkan tugas yang dijadwalkan untuk dijalankan di DataStudio. Setelah tugas-tugas tersebut dikembangkan, Anda dapat pergi ke Pusat Operasi di lingkungan produksi untuk memantau dan melakukan operasi O&M pada tugas-tugas tersebut. DataWorks juga menyediakan kontrol proses untuk pengembangan dan penerapan tugas untuk menstandarisasi operasi pengembangan data dan memastikan keamanan pengembangan data.
1. Integrasi Data
DataWorks Data Integration memungkinkan Anda membaca dan menulis data ke EMR Hive. Sebelum mensinkronkan data dari atau ke sumber data Hive, Anda harus menambahkan layanan Hive ke DataWorks sebagai sumber data. DataWorks mendukung berbagai skenario sinkronisasi data, termasuk sinkronisasi batch, sinkronisasi penuh, dan sinkronisasi inkremental, yang dapat dipilih sesuai dengan kebutuhan bisnis Anda. Untuk detail lebih lanjut, lihat Integrasi Data.
2. Pemodelan Data dan Pengembangan
Modul | Deskripsi | Referensi |
Pemodelan Data | Pemodelan Data merupakan langkah awal dalam tata kelola data ujung ke ujung. Pendekatan ini menggunakan metodologi pemodelan dari mid-end data Alibaba untuk menafsirkan data bisnis perusahaan dari sudut pandang bisnis. Pemodelan mencakup modul perencanaan gudang data, standar data, pemodelan dimensional, dan metrik data, sehingga memungkinkan personel di perusahaan untuk dengan cepat memahami serta berbagi gagasan tentang cara mengukur dan menafsirkan data bisnis sesuai spesifikasi gudang data. | |
DataStudio | DataWorks mengenkapsulasi kemampuan mesin komputasi EMR. Dengan cara ini, Anda dapat menggunakan mesin komputasi EMR untuk menjalankan tugas sinkronisasi data EMR dan tugas pengembangan EMR.
| |
Anda dapat menggunakan node umum dan node jenis mesin komputasi tertentu di DataWorks untuk memproses logika yang kompleks. DataWorks mendukung jenis node umum berikut:
| ||
Setelah tugas pada node dikembangkan, Anda dapat melakukan operasi berikut berdasarkan kebutuhan bisnis Anda:
| ||
Pusat Operasi | Pusat Operasi merupakan platform pemantauan dan O&M big data ujung ke ujung. Platform ini memungkinkan Anda melihat status tugas serta melakukan operasi O&M pada tugas yang mengalami pengecualian, seperti diagnosis cerdas dan menjalankan ulang tugas. Pusat Operasi juga menyediakan fitur baseline cerdas untuk membantu menyelesaikan masalah seperti waktu output yang tidak terkendali dari tugas penting dan kesulitan dalam pemantauan tugas massal, sehingga memastikan ketepatan waktu output tugas. | |
Kualitas Data | Kualitas Data memastikan ketersediaan data untuk proses R&D data ujung ke ujung serta menyediakan data yang andal bagi bisnis Anda secara efisien. Kualitas Data membantu mengidentifikasi masalah kualitas data sedini mungkin dan mencegah eskalasi masalah tersebut melalui pemeriksaan kualitas berbasis aturan pemantauan yang efektif, dikombinasikan dengan proses penjadwalan tugas. |
3. Tata Kelola Data
Setelah mendaftarkan kluster EMR ke DataWorks, DataWorks secara otomatis mengumpulkan metadata dari mesin komputasi EMR Anda. Untuk melihat metadata, Anda dapat merujuk ke Ikhtisar Peta Data. Selain itu, untuk melihat masalah yang dideteksi oleh DataWorks dan melakukan operasi tata kelola data terkait, Anda dapat merujuk ke Ikhtisar Pusat Tata Kelola Data.
Modul | Deskripsi | Referensi |
Peta Data | Peta Data adalah platform manajemen data tingkat perusahaan yang menyediakan kemampuan manajemen, pengurutan, pencarian cepat, dan pemahaman mendalam untuk objek data berdasarkan layanan metadata terpadu tingkat bawah. | |
Pusat Keamanan Penjaga Keamanan Data Pusat Persetujuan | Pusat Keamanan adalah platform tata kelola keamanan data ujung ke ujung yang mencakup klasifikasi aset data, identifikasi data sensitif, manajemen otorisasi terkait data, masking data sensitif, audit akses ke data sensitif, dan identifikasi serta respons risiko. Pusat Keamanan membantu Anda menentukan masalah tata kelola keamanan data. | |
Pusat Tata Kelola Data | Pusat Tata Kelola Data secara otomatis mengidentifikasi item yang perlu dikelola untuk berbagai bidang tata kelola berdasarkan aturan yang berasal dari pengalaman di bidang terkait data, dan menyediakan solusi tata kelola dan optimasi yang mencakup pencegahan masalah pra-kejadian dan resolusi masalah pasca-kejadian. Pusat Tata Kelola Data dapat membantu Anda menyelesaikan tata kelola data secara aktif dan sistematis. |
4. Analisis Data dan Layanan
DataAnalysis dan DataService Studio dirancang untuk menyediakan kemampuan pemrosesan dan analisis data bagi perusahaan serta membantu perusahaan menggunakan API yang dikelola secara terpusat untuk mengakses dan berbagi data.
Modul | Deskripsi | Referensi |
DataAnalysis | Modul DataAnalysis dari DataWorks membantu Anda melakukan analisis berbasis SQL secara online, memahami persyaratan bisnis, dan mengedit serta berbagi data, serta memungkinkan Anda menyimpan hasil kueri sebagai kartu grafik dan dengan cepat menghasilkan laporan data visual berdasarkan kartu grafik tersebut untuk pelaporan harian. | Untuk informasi lebih lanjut, lihat Ikhtisar DataAnalysis. |
DataService Studio | DataService Studio dirancang untuk menyediakan kemampuan layanan data dan berbagi data yang komprehensif bagi perusahaan dan membantu perusahaan mengelola layanan API untuk sistem internal dan eksternal secara terpusat. | Untuk informasi lebih lanjut, lihat Ikhtisar DataService Studio. |
5. Platform Terbuka
DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda terintegrasi dengan cepat ke DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses data, mengatur data, melakukan operasi O&M pada data, serta merespons secara cepat terhadap perubahan status bisnis di sistem aplikasi.
Item | Deskripsi | Referensi |
OpenAPI | Modul OpenAPI memungkinkan Anda memanggil operasi API DataWorks sehingga Anda dapat mengintegrasikan aplikasi Anda dengan DataWorks. Ini dapat membantu memfasilitasi pemrosesan big data, mengurangi operasi manual dan operasi O&M, meminimalkan risiko data, dan mengurangi biaya untuk perusahaan. | |
OpenEvent | Modul OpenEvent memungkinkan Anda berlangganan peristiwa perubahan DataWorks yang terkait dengan aplikasi Anda sehingga Anda dapat mendeteksi dan merespons perubahan tersebut sedini mungkin. | |
Ekstensi | Anda dapat menggunakan modul OpenEvent untuk berlangganan pesan peristiwa yang dihasilkan di ruang kerja DataWorks Anda. Anda dapat menggunakan modul Ekstensi untuk mendaftarkan program lokal Anda sebagai ekstensi untuk mengelola titik peristiwa ekstensi dan proses. |
Lampiran: Saran untuk konfigurasi kluster EMR
Anda dapat menggunakan layanan EMR yang berbeda untuk menjalankan tugas EMR di DataWorks. Konfigurasi optimal dari layanan EMR bervariasi. Saat Anda membuat kluster EMR, Anda dapat memilih layanan EMR berdasarkan kebutuhan bisnis Anda.
Kyuubi
Saat Anda mengonfigurasi Kyuubi di lingkungan produksi, kami menyarankan Anda untuk menyetel parameter
kyuubi_java_optske 10g atau nilai yang lebih besar, dan menyetel parameterkyuubi_beeline_optske 2g atau nilai yang lebih besar.Spark
Ukuran memori default Spark kecil. Anda dapat menambahkan perintah yang digunakan untuk mengonfigurasi ukuran memori di CLI
spark-submituntuk memodifikasi ukuran memori default.Anda dapat memodifikasi parameter berikut yang dikonfigurasikan untuk Spark berdasarkan skala kluster EMR yang Anda gunakan:
spark.driver.memory,spark.driver.memoryOverhead, danspark.executor.memory.
PentingHanya node EMR Hive, node EMR Spark, dan node EMR Spark SQL di DataWorks yang dapat digunakan untuk menghasilkan garis keturunan. Node EMR Hive dapat digunakan untuk menghasilkan garis keturunan tingkat tabel dan tingkat kolom. Node EMR berbasis Spark dapat digunakan untuk menghasilkan hanya garis keturunan tingkat tabel.
Untuk informasi lebih lanjut tentang konfigurasi Spark, lihat Manajemen Memori Spark.
HDFS
Anda dapat memodifikasi parameter berikut yang dikonfigurasikan untuk HDFS berdasarkan skala kluster EMR yang Anda gunakan:
hadoop_namenode_heapsize,hadoop_datanode_heapsize,hadoop_secondary_namenode_heapsize, danhadoop_namenode_opts.