Menjalankan tugas E-MapReduce (EMR) di DataWorks memerlukan konfigurasi baik di sisi EMR maupun DataWorks. Tanpa konfigurasi yang tepat, tugas dapat gagal sepenuhnya atau seluruh anggota ruang kerja akan berbagi izin kluster yang sama, sehingga menghambat isolasi data berbasis pengguna.
Siapa yang perlu melakukan apa
| Role | Apa yang harus dilakukan |
|---|---|
| Administrator ruang kerja | Daftarkan kluster EMR ke DataWorks, konfigurasikan pemetaan akun di SettingCenter |
| Data developer / pemilik task | Ditambahkan ke pengguna LDAP dan ruang kerja DataWorks (hanya diperlukan untuk pemetaan akun OpenLDAP) |
Cara kerjanya
DataWorks memetakan anggota ruang kerja ke akun pada kluster EMR yang terdaftar. Saat seorang anggota menjalankan tugas EMR, DataWorks melakukan autentikasi dengan kluster menggunakan akun yang dipetakan tersebut, dan tugas dijalankan dengan izin data milik akun tersebut. Pendekatan ini memberikan batasan akses data tersendiri bagi setiap pengguna.
Dua jenis akun didukung untuk pemetaan: akun sistem dan akun OpenLDAP. Hanya satu metode autentikasi yang dapat diaktifkan per kluster.
Dukungan metode autentikasi bervariasi tergantung mesin komputasi. Periksa apakah kluster EMR Anda mendukung autentikasi LDAP di Konsol EMR sebelum memilih jenis pemetaan.
Sebelum memulai
Konfirmasi hal-hal berikut sebelum memulai konfigurasi:
Pemetaan hanya dapat dikonfigurasi di tingkat kluster.
Akun dan kata sandi kluster EMR yang digunakan dalam pemetaan harus sesuai dengan akun dan kata sandi aktual dari kluster EMR yang terdaftar di DataWorks. Ketidaksesuaian kredensial akan menyebabkan kegagalan tugas.
Jika Anda menggunakan Mapping to OpenLDAP Account, autentikasi LDAP harus diaktifkan untuk kluster DAN untuk setiap layanan yang menjalankan tugas SQL (Hive, Impala, Presto). Jika autentikasi LDAP dinonaktifkan untuk suatu layanan, tugas SQL pada layanan tersebut akan gagal meskipun pemetaan di tingkat kluster telah dikonfigurasi.
Jika Anda menggunakan Mapping to System Account, autentikasi LDAP tidak diperlukan.
Pengelolaan izin di sisi EMR
Aktifkan autentikasi LDAP
Untuk menggunakan akun OpenLDAP dalam otentikasi identitas, aktifkan autentikasi LDAP untuk kluster dan tambahkan akun terkait ke pengguna LDAP.
Aktifkan autentikasi LDAP untuk kluster. Lihat Enable LDAP authentication.
Tambahkan akun yang akan membuat, menguji, menyerahkan, dan menerapkan tugas EMR di DataStudio ke pengguna LDAP dan ruang kerja DataWorks terkait. Untuk detail cara menambahkan akun ke ruang kerja, lihat Overview of users, roles, and permissions.
Manage data permissions
Untuk mengisolasi izin data di tingkat kluster, gunakan EMR Ranger untuk mengelola izin yang diberikan kepada setiap akun kluster EMR yang dipetakan ke Akun Alibaba Cloud.
Pengelolaan izin di sisi DataWorks
Sisi DataWorks melibatkan dua lapisan izin yang berbeda: izin platform (modul mana yang dapat diakses pengguna) dan izin data (data mana yang dapat dibaca atau ditulis pengguna berdasarkan pemetaan akun). Keduanya harus dikonfigurasi.
Daftarkan kluster EMR ke DataWorks
Daftarkan kluster EMR ke DataWorks agar dapat digunakan sebagai instans mesin komputasi. Hanya akun yang memiliki kebijakan AliyunEMRFullAccess yang dapat melakukan operasi ini. Untuk detail cara melampirkan kebijakan ini, lihat Overview of users, roles, and permissions.
Berikan izin modul layanan
Untuk menjalankan tugas EMR di DataWorks, setiap pengguna memerlukan izin pada modul layanan terkait: DataStudio, Data Map, Data Quality, dan intelligent monitoring. Dengan izin ini, pengguna dapat mengembangkan tugas EMR, melakukan operasi O&M pada tugas tersebut, serta memantau kualitas data tugas tersebut. Izin ini hanya mengontrol akses ke fitur platform—tidak menentukan data mana yang dapat dibaca atau ditulis pengguna. Untuk detail lebih lanjut, lihat Overview of users, roles, and permissions.
Konfigurasikan pemetaan akun
Setelah mendaftarkan kluster EMR dalam mode keamanan, konfigurasikan pemetaan antara anggota ruang kerja DataWorks dan akun kluster EMR. Anggota mewarisi izin data yang sama dengan akun yang dipetakan kepadanya.
Di DataWorks, buka SettingCenter > Cluster Management.
Konfigurasikan pemetaan antara anggota ruang kerja dan akun kluster EMR yang terdaftar.
Untuk petunjuk langkah demi langkah, lihat Configure DataWorks.
Skema kegagalan
| Jenis pemetaan | Kapan tugas gagal |
|---|---|
| Mapping to System Account | Akun atau kata sandi dalam pemetaan tidak sesuai dengan kredensial aktual kluster EMR |
| Mapping to OpenLDAP Account | Autentikasi LDAP diaktifkan untuk kluster tetapi tidak ada pemetaan akun yang dikonfigurasi di DataWorks |
| Mapping to OpenLDAP Account | Autentikasi LDAP diaktifkan di DataWorks tetapi dinonaktifkan untuk layanan tertentu (seperti Hive, Impala, atau Presto) di kluster EMR |