Ringkasan Jenis Node EMR dan Integrasi Penjadwalan DataWorks - DataWorks

DataWorks memungkinkan Anda membuat node seperti Hive, MR, Presto, dan Spark SQL berdasarkan mesin komputasi E-MapReduce (EMR). Di konsol DataWorks, Anda dapat mengonfigurasi node EMR, mengaktifkan penjadwalan periodik tugas pada node, dan mengelola metadata node untuk memastikan bahwa data dihasilkan dan dikelola dengan cara yang efisien dan stabil. Topik ini menjelaskan catatan penggunaan untuk pengembangan tugas EMR di DataWorks. Catatan penggunaan mencakup proses pengembangan dasar, deskripsi biaya, persiapan lingkungan, dan manajemen izin.

Informasi latar belakang

EMR merupakan solusi pemrosesan big data yang disediakan oleh Alibaba Cloud.

EMR dikembangkan berdasarkan open source Apache Hadoop dan Apache Spark, memungkinkan Anda menggunakan sistem periferal dalam ekosistem Hadoop dan Spark untuk menganalisis serta memproses data dengan mudah. Alibaba Cloud menyediakan EMR on ECS, EMR on ACK, dan EMR Serverless StarRocks guna memenuhi kebutuhan bisnis pengguna yang berbeda. Untuk informasi lebih lanjut, lihat topik-topik di direktoriIkhtisar Produk.

Jenis kluster EMR yang didukung

Anda harus mendaftarkan kluster EMR ke DataWorks sebelum Anda dapat menggunakan kluster tersebut di konsol DataWorks untuk menjalankan tugas. Sebelum Anda dapat melakukan operasi terkait EMR di konsol DataWorks, Anda harus membuat kluster EMR yang diperlukan. Anda dapat mendaftarkan jenis-jenis kluster EMR berikut ke DataWorks:

Kluster DataLake (danau data baru): dibuat di halaman EMR on ECS
Kluster Kustom: dibuat di halaman EMR on ECS
Kluster Hadoop (danau data lama): dibuat di halaman EMR on ECS
Penting
- Anda dapat menggunakan kluster EMR Hadoop versi berikut di DataWorks:
  EMR V3.38.2, EMR V3.38.3, EMR V4.9.0, EMR V5.6.0, EMR V3.26.3, EMR V3.27.2, EMR V3.29.0, EMR V3.32.0, EMR V3.35.0, EMR V4.3.0, EMR V4.4.1, EMR V4.5.0, EMR V4.5.1, EMR V4.6.0, EMR V4.8.0, EMR V5.2.1, dan EMR V5.4.3.
- Kami menyarankan Anda untuk tidak menggunakan kluster Hadoop. Kami menyarankan Anda bermigrasi dari kluster Hadoop ke kluster DataLake sesegera mungkin. Untuk informasi lebih lanjut, lihat Migrasikan Data dari Kluster Hadoop ke Kluster DataLake.
Kluster Spark: dibuat di halaman EMR on ACK
Instansi EMR Serverless StarRocks

Catatan

Jika kluster Anda tidak dapat didaftarkan ke DataWorks, ajukan tiket untuk menghubungi dukungan teknis.

Batasan

Jenis tugas: Tugas EMR Flink tidak dapat dijalankan di konsol DataWorks.

Pelaksanaan tugas: Anda bisa menggunakan grup sumber daya serverless (direkomendasikan) atau grup sumber daya eksklusif versi lama untuk penjadwalan untuk menjalankan tugas EMR.
Tata kelola tugas:
- Hanya tugas SQL pada node EMR Hive, EMR Spark, dan EMR Spark SQL yang dapat digunakan untuk menghasilkan garis keturunan data. Jika kluster EMR Anda adalah versi V3.43.1, V5.9.1, atau versi minor setelahnya, Anda dapat melihat garis keturunan tingkat tabel dan tingkat kolom dari node yang dibuat berdasarkan kluster tersebut.
  Catatan
  Untuk node EMR berbasis Spark, jika kluster EMR adalah versi V5.8.0, V3.42.0, atau versi minor setelah V5.8.0 atau V3.42.0, node EMR berbasis Spark dapat digunakan untuk melihat garis keturunan tingkat tabel dan tingkat kolom. Jika kluster EMR adalah versi minor sebelum V5.8.0 atau V3.42.0, hanya node EMR berbasis Spark yang menggunakan Spark 2.x yang dapat digunakan untuk melihat garis keturunan tingkat tabel.
- Jika Anda ingin mengelola metadata untuk kluster DataLake atau kustom di DataWorks, Anda harus mengonfigurasi EMR-HOOK di kluster terlebih dahulu. Jika Anda tidak mengonfigurasi EMR-HOOK di kluster yang diinginkan, metadata tidak akan ditampilkan secara real-time, log audit tidak akan dihasilkan, dan garis keturunan data tidak akan ditampilkan di DataWorks. Selain itu, tugas tata kelola EMR tidak dapat dijalankan. EMR-HOOK dapat dikonfigurasikan untuk layanan EMR Hive dan EMR Spark SQL. Untuk informasi lebih lanjut, lihat Gunakan fitur ekstensi Hive untuk mencatat garis keturunan data dan informasi akses historis dan Gunakan fitur ekstensi Spark SQL untuk mencatat garis keturunan data dan informasi akses historis.
Wilayah yang didukung: EMR Serverless Spark tersedia di wilayah China (Hangzhou), China (Shanghai), China (Beijing), China (Zhangjiakou), China (Shenzhen), Singapura, Jerman (Frankfurt), dan AS (Silicon Valley).
Untuk kluster EMR yang memiliki autentikasi Kerberos diaktifkan, Anda harus menambahkan aturan masuk port UDP ke grup keamanan kluster EMR untuk blok CIDR vSwitch yang terkait dengan grup sumber daya.
Catatan
Untuk menambahkan aturan masuk, lakukan operasi berikut: Masuk ke konsol EMR. Buka tab Basic Information dari kluster EMR Anda. Di bagian Keamanan tab Informasi Dasar, klik ikon di sebelah kanan parameter Cluster Security Group. Pada tab Security Group Details halaman Grup Keamanan, klik tab Inbound di bagian Access Rule. Pada tab Masuk, klik Add Rule. Setel parameter Protocol Type ke Custom UDP, parameter Port Range ke konfigurasi yang ditentukan dalam file /etc/krb5.conf dari kluster EMR Anda, dan parameter Authorization Object ke blok CIDR vSwitch yang terkait dengan grup sumber daya.

Prasyarat

DataWorks telah diaktifkan dan ruang kerja telah dibuat. Untuk informasi lebih lanjut, lihat Aktifkan DataWorks dan Kelola ruang kerja.
Kluster EMR telah dibuat. Untuk informasi lebih lanjut, lihat Buat kluster.
Catatan
Anda dapat menggunakan layanan EMR yang berbeda untuk menjalankan tugas EMR di DataWorks. Konfigurasi optimal dari layanan EMR bervariasi. Saat Anda membuat kluster EMR, Anda dapat merujuk ke bagian Lampiran: Saran untuk Konfigurasi Kluster EMR dalam topik ini untuk memilih layanan EMR berdasarkan kebutuhan bisnis Anda.
Sebuah grup sumber daya serverless DataWorks dibeli.
Secara default, grup sumber daya DataWorks tidak terhubung ke jaringan layanan cloud lain setelah grup sumber daya dibeli. Sebuah kluster EMR harus terhubung ke grup sumber daya tertentu sebelum Anda dapat menggunakan kluster EMR tersebut.
Catatan
- DataWorks merilis grup sumber daya serverless yang digunakan untuk tujuan umum, dan kami menyarankan Anda untuk membeli jenis grup sumber daya ini. Grup sumber daya serverless cocok untuk skenario di mana berbagai jenis tugas digunakan, seperti sinkronisasi data dan penjadwalan tugas. Untuk informasi tentang cara membeli grup sumber daya serverless, lihat Buat dan Gunakan Grup Sumber Daya Serverless. Pengguna baru hanya dapat membeli grup sumber daya serverless.
- Jika Anda telah membeli grup sumber daya eksklusif versi lama, Anda juga dapat menggunakan grup sumber daya tersebut untuk menjalankan tugas EMR. Grup sumber daya eksklusif versi lama yang dapat Anda pilih bervariasi berdasarkan jenis tugas yang ingin Anda jalankan. Misalnya, untuk menjalankan tugas sinkronisasi data, Anda harus menggunakan grup sumber daya eksklusif untuk Integrasi Data. Untuk menjalankan tugas penjadwalan data, Anda harus menggunakan grup sumber daya eksklusif untuk penjadwalan. Untuk informasi lebih lanjut, lihat topik-topik di direktori Gunakan Grup Sumber Daya Versi Lama.

Catatan penggunaan

Tabel berikut menjelaskan catatan penggunaan untuk pengembangan tugas E-MapReduce (EMR) di DataWorks.

No.	Deskripsi
Penagihan	Saat Anda mengembangkan tugas EMR di DataWorks, Anda dikenakan biaya tidak hanya untuk sumber daya DataWorks tetapi juga untuk sumber daya layanan cloud lainnya dari Alibaba Cloud.
Persiapan Lingkungan	Sebelum Anda mengembangkan tugas EMR di DataWorks, Anda harus membeli edisi DataWorks tertentu dan grup sumber daya berdasarkan kebutuhan bisnis Anda, mendaftarkan kluster EMR, dan menyiapkan lingkungan pengembangan.
Manajemen Izin	DataWorks menyediakan sistem manajemen izin yang komprehensif bagi Anda untuk mengelola izin tingkat produk dan izin tingkat modul. Anda dapat memberikan izin berbeda kepada pengguna yang berbeda berdasarkan kebutuhan bisnis Anda untuk menerapkan manajemen izin yang mendetail.
Integrasi Data	DataWorks Data Integration memungkinkan Anda membaca data dari dan menulis data ke EMR Hive. DataWorks menyediakan berbagai skenario sinkronisasi data, seperti sinkronisasi batch dan sinkronisasi penuh serta inkremental.
Pemodelan Data dan Pengembangan	DataWorks menyediakan layanan Pemodelan Data yang digunakan untuk menyusun dan mengelola volume data besar yang tidak terstruktur dan kompleks. DataWorks juga menyediakan layanan DataStudio untuk pengembangan tugas yang dijadwalkan untuk dijalankan. Setelah tugas-tugas tersebut dikembangkan, Anda dapat pergi ke Pusat Operasi untuk memantau dan melakukan operasi O&M pada tugas-tugas tersebut.
Tata Kelola Data	DataWorks memungkinkan Anda mengelola metadata EMR dan mengatur data EMR.
Analisis Data dan Layanan	DataWorks DataAnalysis menyediakan kemampuan analisis data EMR dan berbagi layanan.
Platform Terbuka	DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda cepat terintegrasi dengan DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses-proses terkait data, mengatur data, melakukan operasi O&M pada data, dan merespons dengan cepat terhadap perubahan status bisnis di sistem aplikasi.

Penagihan

1. Biaya untuk sumber daya DataWorks

Bagian ini menjelaskan biaya yang termasuk dalam tagihan DataWorks Anda. Untuk informasi tentang item yang dapat ditagih dari DataWorks, lihat Ikhtisar Penagihan.

Biaya	Deskripsi
Biaya untuk edisi DataWorks yang Anda gunakan	Anda harus mengaktifkan DataWorks sebelum Anda dapat mengembangkan tugas di DataWorks. Jika Anda mengaktifkan Edisi Standar DataWorks, Edisi Profesional DataWorks, atau Edisi Enterprise DataWorks, Anda akan dikenakan biaya untuk edisi tersebut saat Anda membelinya.
Biaya untuk sumber daya penjadwalan yang Anda gunakan untuk menjadwalkan tugas	Setelah tugas-tugas dikembangkan, sumber daya penjadwalan diperlukan untuk menjadwalkan tugas-tugas tersebut. Anda dapat membeli grup sumber daya serverless atau grup sumber daya eksklusif versi lama untuk penjadwalan, dan membayar untuk grup sumber daya tersebut. Kami menyarankan Anda untuk membeli grup sumber daya serverless. Catatan Grup sumber daya serverless yang dibeli dapat digunakan untuk penjadwalan tugas dan sinkronisasi data.
Biaya untuk sumber daya yang Anda gunakan untuk mensinkronkan data	Tugas sinkronisasi data mengonsumsi sumber daya penjadwalan dan sumber daya sinkronisasi. Anda dapat membeli grup sumber daya serverless atau grup sumber daya eksklusif versi lama untuk Integrasi Data, dan membayar untuk grup sumber daya tersebut. Kami menyarankan Anda untuk membeli grup sumber daya serverless.

2. Biaya untuk sumber daya layanan cloud lainnya dari Alibaba Cloud

Bagian ini menjelaskan biaya yang tidak termasuk dalam tagihan DataWorks Anda.

Penting

Anda dikenakan biaya untuk sumber daya layanan cloud lainnya dari Alibaba Cloud berdasarkan logika penagihan layanan cloud Alibaba Cloud. Untuk informasi lebih lanjut, lihat dokumentasi penagihan layanan cloud Alibaba Cloud. Untuk informasi tentang rincian penagihan mesin komputasi EMR, lihat topik-topik di direktori Penagihan.

Biaya	Deskripsi
Biaya database	Saat Anda menjalankan tugas sinkronisasi data untuk membaca data dari dan menulis data ke database, biaya database mungkin akan timbul.
Biaya komputasi dan penyimpanan	Saat Anda menjalankan tugas jenis mesin komputasi tertentu, biaya komputasi dan penyimpanan untuk jenis mesin komputasi tersebut mungkin akan timbul.
Biaya layanan jaringan	Saat Anda membangun koneksi jaringan antara DataWorks dan layanan terkait lainnya, biaya layanan jaringan mungkin akan timbul. Misalnya, jika Anda menggunakan layanan seperti Express Connect, Elastic IP Address (EIP), dan Internet Shared Bandwidth untuk membangun koneksi jaringan antara DataWorks dan layanan terkait lainnya, Anda mungkin akan dikenakan biaya layanan jaringan.

Persiapan Lingkungan

1. Persiapan Sumber Daya

Item	Deskripsi	Referensi
Pilih edisi DataWorks	DataWorks Edisi Dasar memungkinkan Anda melakukan operasi dasar berikut selama pengembangan data EMR: migrasi data ke cloud, pengembangan data, penjadwalan tugas EMR, dan tata kelola data. Jika Anda ingin menggunakan solusi tata kelola data dan keamanan data yang lebih canggih, Anda dapat membeli edisi lanjutan DataWorks, seperti DataWorks Edisi Standar, DataWorks Edisi Profesional, atau DataWorks Edisi Enterprise.	Perbedaan di antara edisi DataWorks
Pilih grup sumber daya	Anda hanya dapat menggunakan grup sumber daya serverless atau grup sumber daya eksklusif versi lama untuk menjalankan tugas EMR. Kami menyarankan Anda untuk menggunakan grup sumber daya serverless.	Buat dan gunakan grup sumber daya serverless Gunakan grup sumber daya versi lama

2. Persiapan Lingkungan Pengembangan

Sebelum mengembangkan tugas EMR di DataStudio, Anda harus mendaftarkan kluster EMR dengan ruang kerja DataWorks dan menambahkan pengguna sebagai anggota ruang kerja untuk memfasilitasi pengembangan data kolaboratif.

Item	Deskripsi	Referensi
Siapkan lingkungan sinkronisasi data	Sebelum Anda menjalankan tugas sinkronisasi data berdasarkan layanan EMR, Anda harus menambahkan layanan EMR ke DataWorks sebagai sumber data.	Jenis sumber data yang didukung dan operasi sinkronisasi
Siapkan lingkungan untuk pengembangan data dan analisis	Sebelum Anda mengaktifkan DataWorks untuk menjadwalkan tugas EMR secara berkala, Anda harus menambahkan kluster EMR ke DataWorks sebagai sumber data. Kemudian, Anda dapat menggunakan sumber data tersebut untuk melakukan operasi seperti pengembangan data, analisis data, dan penjadwalan tugas periodik.	Daftarkan kluster EMR ke DataWorks
Siapkan lingkungan pengembangan kolaboratif	Untuk memastikan bahwa pengguna RAM dapat berkolaborasi satu sama lain untuk mengembangkan data di ruang kerja, Anda harus melakukan operasi berikut: Tambahkan pengguna RAM ke ruang kerja saat ini sebagai anggota dan tetapkan peran Pengembangan kepada pengguna RAM di ruang kerja. Tambahkan anggota ruang kerja ke kluster EMR yang diinginkan.	Kelola izin pada layanan tingkat ruang kerja Kelola pengguna OpenLDAP

Manajemen Izin

DataWorks menyediakan sistem manajemen izin komprehensif yang memungkinkan Anda mengelola izin tingkat produk dan modul. Berdasarkan kebutuhan bisnis, Anda dapat memberikan izin berbeda kepada pengguna yang berbeda. Detail manajemen izin:

1. Manajemen izin akses data

Anda dapat mengonfigurasi pemetaan antara pengguna RAM yang ditambahkan ke ruang kerja DataWorks sebagai anggota untuk mengembangkan tugas EMR dan akun kluster EMR, sehingga pengguna RAM memperoleh izin dari akun kluster EMR yang dipetakan. Untuk informasi lebih lanjut, lihat Konfigurasikan pemetaan antara akun anggota penyewa dan akun kluster EMR.

DataWorks memungkinkan Anda mengelola izin pada Data Lake Formation (DLF) secara visual, seperti meminta izin, memproses permintaan, dan melakukan audit. Fitur ini membantu Anda mengelola izin pada danau data yang sepenuhnya dikelola secara terpusat. Jika DLF ditentukan sebagai layanan penyimpanan metadata untuk sumber data EMR yang ditambahkan ke ruang kerja Anda, Anda dapat mengajukan dan mengelola izin melalui Pusat Keamanan di DataWorks. Untuk informasi lebih lanjut, lihat Kelola izin pada DLF.

2. Manajemen izin pada layanan dan fitur

Sebelum Anda mengembangkan data di DataWorks sebagai pengguna RAM, Anda harus menetapkan peran tingkat ruang kerja kepada pengguna RAM untuk memberikan izin tertentu kepada pengguna RAM. Untuk informasi lebih lanjut, lihat Praktik terbaik untuk mengelola izin pengguna RAM.

Anda dapat merujuk ke Kelola izin pada layanan tingkat global untuk mengelola izin pada modul layanan DataWorks, seperti melarang pengguna mengakses Peta Data, dan untuk mengelola izin melakukan operasi di konsol DataWorks, seperti mengizinkan pengguna menghapus ruang kerja.
Anda dapat merujuk ke Kelola izin pada layanan tingkat ruang kerja untuk mengelola izin pada modul layanan tingkat ruang kerja DataWorks, seperti mengizinkan pengguna mengakses DataStudio untuk melakukan operasi pengembangan, dan untuk mengelola izin pada modul layanan tingkat global DataWorks, seperti melarang pengguna mengakses Penjaga Keamanan Data.

Memulai

DataWorks menyediakan beberapa layanan. Anda dapat mengembangkan tugas yang dijadwalkan untuk dijalankan di DataStudio. Setelah tugas-tugas tersebut dikembangkan, Anda dapat pergi ke Pusat Operasi di lingkungan produksi untuk memantau dan melakukan operasi O&M pada tugas-tugas tersebut. DataWorks juga menyediakan kontrol proses untuk pengembangan dan penerapan tugas untuk menstandarisasi operasi pengembangan data dan memastikan keamanan pengembangan data.

1. Integrasi Data

DataWorks Data Integration memungkinkan Anda membaca dan menulis data ke EMR Hive. Sebelum mensinkronkan data dari atau ke sumber data Hive, Anda harus menambahkan layanan Hive ke DataWorks sebagai sumber data. DataWorks mendukung berbagai skenario sinkronisasi data, termasuk sinkronisasi batch, sinkronisasi penuh, dan sinkronisasi inkremental, yang dapat dipilih sesuai dengan kebutuhan bisnis Anda. Untuk detail lebih lanjut, lihat Integrasi Data.

2. Pemodelan Data dan Pengembangan

Modul	Deskripsi	Referensi
Pemodelan Data	Pemodelan Data merupakan langkah awal dalam tata kelola data ujung ke ujung. Pendekatan ini menggunakan metodologi pemodelan dari mid-end data Alibaba untuk menafsirkan data bisnis perusahaan dari sudut pandang bisnis. Pemodelan mencakup modul perencanaan gudang data, standar data, pemodelan dimensional, dan metrik data, sehingga memungkinkan personel di perusahaan untuk dengan cepat memahami serta berbagi gagasan tentang cara mengukur dan menafsirkan data bisnis sesuai spesifikasi gudang data.	Ikhtisar Pemodelan Data
DataStudio	DataWorks mengenkapsulasi kemampuan mesin komputasi EMR. Dengan cara ini, Anda dapat menggunakan mesin komputasi EMR untuk menjalankan tugas sinkronisasi data EMR dan tugas pengembangan EMR. Sinkronisasi data: DataStudio hanya mendukung skenario sinkronisasi batch dan real-time tertentu. Untuk informasi lebih lanjut tentang skenario sinkronisasi data, lihat Ikhtisar Integrasi Data. Pengembangan data: Anda dapat mengembangkan dan mengizinkan sistem untuk menjadwalkan berbagai jenis tugas secara berkala di DataWorks tanpa perlu menggunakan baris perintah yang kompleks.	Buat Node EMR Hive Buat Node EMR MR Buat Node EMR Spark SQL Buat Node EMR Spark Buat Node EMR Shell Buat node EMR Presto Buat node EMR Spark Streaming Buat Node EMR Kyuubi Buat Node EMR Trino Buat Tabel EMR Buat dan Gunakan Sumber Daya EMR Buat Fungsi EMR
	Anda dapat menggunakan node umum dan node jenis mesin komputasi tertentu di DataWorks untuk memproses logika yang kompleks. DataWorks mendukung jenis node umum berikut: Node beban nol yang digunakan untuk mengelola alur kerja Node Pemicu HTTP yang digunakan dalam skenario di mana sistem penjadwalan eksternal digunakan untuk memicu penjadwalan node di DataWorks, node pemeriksaan objek OSS, dan node Pemeriksaan FTP Node penugasan yang digunakan untuk melewati parameter input dan output untuk node, dan node parameter Node do-while yang digunakan untuk mengeksekusi kode node dalam loop, node for-each yang digunakan untuk melintasi output node penugasan dalam loop dan menilai output tersebut, dan node cabang Node lainnya, seperti node Shell umum dan node database MySQL	Buat dan Gunakan Node Beban Nol Buat Node Pemicu HTTP Node Pemeriksaan Objek OSS Buat Node Pemeriksaan FTP Konfigurasikan Node Penugasan Buat Node Parameter Logika Node do-while Logika Node For-Each Konfigurasikan Node Cabang
	Setelah tugas pada node dikembangkan, Anda dapat melakukan operasi berikut berdasarkan kebutuhan bisnis Anda: Konfigurasikan properti penjadwalan untuk node Jika Anda ingin mengaktifkan DataWorks untuk menjalankan tugas Anda pada node secara berkala, Anda harus mengonfigurasi properti penjadwalan untuk node tersebut, seperti dependensi penjadwalan dan parameter penjadwalan. Debug node Untuk memastikan bahwa tugas pada node di lingkungan produksi dijalankan secara efisien dan mencegah pemborosan sumber daya komputasi, kami menyarankan Anda untuk men-debug dan menjalankan tugas sebelum menerapkannya. Terapkan node Tugas pada node hanya dapat dijadwalkan untuk dijalankan setelah diterapkan ke lingkungan produksi. Oleh karena itu, setelah tugas-tugas tersebut dikembangkan, Anda harus menerapkan tugas-tugas tersebut ke lingkungan produksi. Setelah tugas diterapkan, Anda dapat melihat dan mengelola tugas-tugas tersebut di halaman Auto Triggered Nodes di Operation Center. Kelola node Anda dapat melakukan berbagai operasi pada tugas-tugas di node, seperti menerapkan dan menonaktifkan tugas, serta memodifikasi properti penjadwalan untuk beberapa tugas sekaligus. Lakukan manajemen proses DataWorks menyediakan kontrol proses untuk pengembangan dan penerapan tugas untuk memastikan akurasi dan keamanan operasi yang dilakukan pada tugas. Misalnya, DataWorks menyediakan fitur tinjauan kode, pengujian asap paksa, dan logika kustomisasi tinjauan kode.	Ikhtisar Prosedur Debugging Terapkan Node Lakukan Operasi Batch Manajemen Proses
Pusat Operasi	Pusat Operasi merupakan platform pemantauan dan O&M big data ujung ke ujung. Platform ini memungkinkan Anda melihat status tugas serta melakukan operasi O&M pada tugas yang mengalami pengecualian, seperti diagnosis cerdas dan menjalankan ulang tugas. Pusat Operasi juga menyediakan fitur baseline cerdas untuk membantu menyelesaikan masalah seperti waktu output yang tidak terkendali dari tugas penting dan kesulitan dalam pemantauan tugas massal, sehingga memastikan ketepatan waktu output tugas.	Lakukan Operasi O&M Dasar pada Node Pemicu Otomatis
Kualitas Data	Kualitas Data memastikan ketersediaan data untuk proses R&D data ujung ke ujung serta menyediakan data yang andal bagi bisnis Anda secara efisien. Kualitas Data membantu mengidentifikasi masalah kualitas data sedini mungkin dan mencegah eskalasi masalah tersebut melalui pemeriksaan kualitas berbasis aturan pemantauan yang efektif, dikombinasikan dengan proses penjadwalan tugas.	Ikhtisar Kualitas Data

3. Tata Kelola Data

Setelah mendaftarkan kluster EMR ke DataWorks, DataWorks secara otomatis mengumpulkan metadata dari mesin komputasi EMR Anda. Untuk melihat metadata, Anda dapat merujuk ke Ikhtisar Peta Data. Selain itu, untuk melihat masalah yang dideteksi oleh DataWorks dan melakukan operasi tata kelola data terkait, Anda dapat merujuk ke Ikhtisar Pusat Tata Kelola Data.

Modul	Deskripsi	Referensi
Peta Data	Peta Data adalah platform manajemen data tingkat perusahaan yang menyediakan kemampuan manajemen, pengurutan, pencarian cepat, dan pemahaman mendalam untuk objek data berdasarkan layanan metadata terpadu tingkat bawah.	Ikhtisar Peta Data
Pusat Keamanan Penjaga Keamanan Data Pusat Persetujuan	Pusat Keamanan adalah platform tata kelola keamanan data ujung ke ujung yang mencakup klasifikasi aset data, identifikasi data sensitif, manajemen otorisasi terkait data, masking data sensitif, audit akses ke data sensitif, dan identifikasi serta respons risiko. Pusat Keamanan membantu Anda menentukan masalah tata kelola keamanan data.	Ikhtisar Pusat Keamanan Ikhtisar Penjaga Keamanan Data Ikhtisar Pusat Persetujuan
Pusat Tata Kelola Data	Pusat Tata Kelola Data secara otomatis mengidentifikasi item yang perlu dikelola untuk berbagai bidang tata kelola berdasarkan aturan yang berasal dari pengalaman di bidang terkait data, dan menyediakan solusi tata kelola dan optimasi yang mencakup pencegahan masalah pra-kejadian dan resolusi masalah pasca-kejadian. Pusat Tata Kelola Data dapat membantu Anda menyelesaikan tata kelola data secara aktif dan sistematis.	Ikhtisar Pusat Tata Kelola Data

4. Analisis Data dan Layanan

DataAnalysis dan DataService Studio dirancang untuk menyediakan kemampuan pemrosesan dan analisis data bagi perusahaan serta membantu perusahaan menggunakan API yang dikelola secara terpusat untuk mengakses dan berbagi data.

Modul	Deskripsi	Referensi
DataAnalysis	Modul DataAnalysis dari DataWorks membantu Anda melakukan analisis berbasis SQL secara online, memahami persyaratan bisnis, dan mengedit serta berbagi data, serta memungkinkan Anda menyimpan hasil kueri sebagai kartu grafik dan dengan cepat menghasilkan laporan data visual berdasarkan kartu grafik tersebut untuk pelaporan harian.	Untuk informasi lebih lanjut, lihat Ikhtisar DataAnalysis.
DataService Studio	DataService Studio dirancang untuk menyediakan kemampuan layanan data dan berbagi data yang komprehensif bagi perusahaan dan membantu perusahaan mengelola layanan API untuk sistem internal dan eksternal secara terpusat.	Untuk informasi lebih lanjut, lihat Ikhtisar DataService Studio.

5. Platform Terbuka

DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda terintegrasi dengan cepat ke DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses data, mengatur data, melakukan operasi O&M pada data, serta merespons secara cepat terhadap perubahan status bisnis di sistem aplikasi.

Item	Deskripsi	Referensi
OpenAPI	Modul OpenAPI memungkinkan Anda memanggil operasi API DataWorks sehingga Anda dapat mengintegrasikan aplikasi Anda dengan DataWorks. Ini dapat membantu memfasilitasi pemrosesan big data, mengurangi operasi manual dan operasi O&M, meminimalkan risiko data, dan mengurangi biaya untuk perusahaan.	OpenAPI
OpenEvent	Modul OpenEvent memungkinkan Anda berlangganan peristiwa perubahan DataWorks yang terkait dengan aplikasi Anda sehingga Anda dapat mendeteksi dan merespons perubahan tersebut sedini mungkin.	Ikhtisar OpenEvent
Ekstensi	Anda dapat menggunakan modul OpenEvent untuk berlangganan pesan peristiwa yang dihasilkan di ruang kerja DataWorks Anda. Anda dapat menggunakan modul Ekstensi untuk mendaftarkan program lokal Anda sebagai ekstensi untuk mengelola titik peristiwa ekstensi dan proses.	Ikhtisar Ekstensi

Lampiran: Saran untuk konfigurasi kluster EMR

Anda dapat menggunakan layanan EMR yang berbeda untuk menjalankan tugas EMR di DataWorks. Konfigurasi optimal dari layanan EMR bervariasi. Saat Anda membuat kluster EMR, Anda dapat memilih layanan EMR berdasarkan kebutuhan bisnis Anda.

Kyuubi
Saat Anda mengonfigurasi Kyuubi di lingkungan produksi, kami menyarankan Anda untuk menyetel parameter kyuubi_java_opts ke 10g atau nilai yang lebih besar, dan menyetel parameter kyuubi_beeline_opts ke 2g atau nilai yang lebih besar.
Spark
- Ukuran memori default Spark kecil. Anda dapat menambahkan perintah yang digunakan untuk mengonfigurasi ukuran memori di CLI spark-submit untuk memodifikasi ukuran memori default.
- Anda dapat memodifikasi parameter berikut yang dikonfigurasikan untuk Spark berdasarkan skala kluster EMR yang Anda gunakan: spark.driver.memory, spark.driver.memoryOverhead, dan spark.executor.memory.
Penting
Hanya node EMR Hive, node EMR Spark, dan node EMR Spark SQL di DataWorks yang dapat digunakan untuk menghasilkan garis keturunan. Node EMR Hive dapat digunakan untuk menghasilkan garis keturunan tingkat tabel dan tingkat kolom. Node EMR berbasis Spark dapat digunakan untuk menghasilkan hanya garis keturunan tingkat tabel.
Untuk informasi lebih lanjut tentang konfigurasi Spark, lihat Manajemen Memori Spark.
HDFS
Anda dapat memodifikasi parameter berikut yang dikonfigurasikan untuk HDFS berdasarkan skala kluster EMR yang Anda gunakan: hadoop_namenode_heapsize, hadoop_datanode_heapsize, hadoop_secondary_namenode_heapsize, dan hadoop_namenode_opts.