Jika pengguna memiliki izin untuk menanyakan data sensitif tertentu dalam kluster E-MapReduce (EMR) tetapi Anda tidak ingin pengguna tersebut melihat data secara lengkap, Anda dapat mengaktifkan fitur penyamaran data dinamis untuk EMR guna menyamarkan data sensitif secara dinamis dalam hasil kueri. Topik ini menjelaskan cara mengaktifkan fitur penyamaran data dinamis untuk EMR dan memberikan contoh penggunaannya sebagai referensi.
Batasan
Kluster EMR hanya mendukung fitur identifikasi data sensitif dan penyamaran data dari Penjaga Keamanan Data.
Fitur identifikasi data sensitif dan penyamaran data hanya didukung oleh jenis kluster EMR dan tabel tertentu. Untuk informasi lebih lanjut, lihat bagian Jenis tabel Hive apa yang dapat dipratinjau di Peta Data? dalam topik "Tata Kelola Data".
Metadata di sisi Penjaga Keamanan Data diperbarui dengan penundaan satu hari. Jika Anda ingin menyamarkan data EMR, data EMR yang ingin disamarkan harus dibuat satu hari sebelumnya.
Hanya kelompok sumber daya eksklusif untuk penjadwalan yang didukung. Untuk informasi lebih lanjut, lihat Penagihan kelompok sumber daya eksklusif untuk penjadwalan.
Persiapan
Prasyarat
Secara default, Penjaga Keamanan Data menggunakan akun kluster EMR yang memetakan ke Akun Alibaba Cloud Anda untuk data sampel. Jika Protokol Akses Direktori Ringan (LDAP) atau Otentikasi Kerberos diaktifkan untuk kluster EMR Anda dan Ranger atau DLF-Auth digunakan untuk mengelola izin tabel, Anda harus mengonfigurasi pemetaan antara Akun Alibaba Cloud dan akun kluster EMR. Pastikan bahwa akun kluster EMR yang dipetakan memiliki izin yang diperlukan untuk mengakses tabel dalam kluster EMR. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi EMR.
Menyiapkan data
Membuat tabel EMR
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di panel DATASTUDIO pada halaman Data Studio, klik ikon Buat dan pilih .
Ubah kode node dan buat tabel
onefall_test_dsg.CREATE TABLE IF NOT EXISTS onefall_test_dsg ( username STRING ,gender STRING ,phone STRING ,email STRING ,card_no STRING ,address STRING ,zip_code STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY',' ;Impor data uji ke tabel
onefall_test_dsg.Unduh file data uji data.csv.
Impor data uji.
Unggah file data.csv ke node dalam kluster EMR dan jalankan pernyataan SQL berikut untuk memuat data uji:
LOAD DATA LOCAL INPATH '/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg;Unggah file data.csv ke bucket Layanan Penyimpanan Objek (OSS) dan jalankan pernyataan SQL berikut untuk memuat data uji:
LOAD DATA INPATH 'oss://bucket-name.Endpoint/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg ;
Perbarui metadata di sisi Penjaga Keamanan Data
Metadata di sisi Penjaga Keamanan Data diperbarui dengan penundaan satu hari. Setelah Anda membuat dan menerbitkan tabel onefall_test_dsg, Anda harus menunggu hingga hari berikutnya sebelum melakukan operasi penyamaran data.
Konfigurasikan penyamaran data
Langkah 1: Buat aturan identifikasi data sensitif
DataWorks menggunakan aturan identifikasi data sensitif untuk mengidentifikasi bidang sensitif dalam tabel EMR. Anda harus mengonfigurasi aturan identifikasi data sensitif sebelum mengonfigurasi aturan penyamaran data. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Identifikasi Data Sensitif dan Jalankan Tugas Identifikasi Data Sensitif.
Pergi ke tab Aturan Identifikasi Data
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, klik Go to Security Center.
Di panel navigasi sisi kiri, klik untuk pergi ke halaman Data Security Guard.
CatatanJika Akun Alibaba Cloud Anda diberi izin yang diperlukan, Anda dapat langsung mengakses halaman Penjaga Keamanan Data.
Jika Akun Alibaba Cloud Anda tidak diberi izin yang diperlukan, Anda akan dialihkan ke halaman otorisasi Penjaga Keamanan Data. Anda hanya dapat menggunakan fitur-fitur Penjaga Keamanan Data setelah Akun Alibaba Cloud Anda diberi izin yang diperlukan.
Di panel navigasi sisi kiri, pilih . Tab Data Identification Rules muncul.
Konfigurasikan aturan identifikasi data sensitif
Dalam contoh ini, aturan identifikasi data sensitif dibuat untuk mengidentifikasi bidang gender, telepon, dan email dalam tabel onefall_test_dsg yang dibuat dalam bagian persiapan data.
Tentukan kategori data untuk jenis bidang sensitif yang ingin Anda buat.
Di bagian BuildInClassificationTemplate di sisi kiri tab Aturan Identifikasi Data, pilih kategori data tempat jenis bidang sensitif yang dibuat termasuk. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Identifikasi Data Sensitif dan Jalankan Tugas Identifikasi Data Sensitif.
Buat jenis bidang sensitif dan konfigurasikan aturan identifikasi data sensitif untuk jenis tersebut.
Di sudut kanan atas tab, klik Sensitive Field Type. Panel tempat Anda dapat mengonfigurasi aturan identifikasi data sensitif muncul. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Identifikasi Data Sensitif dan Jalankan Tugas Identifikasi Data Sensitif.
CatatanUntuk membantu pengguna memahami jenis bidang sensitif, Anda dapat menggunakan nama bidang
gender,telepon, danemaildari tabelonefall_test_dsgsebagai jenis bidang sensitif.Setelah Anda mengonfigurasi the sensitive data identification rules, klik Batch Publish di sudut kanan atas dan pilih aturan identifikasi data sensitif yang dibuat untuk menerbitkannya sekaligus.

Langkah 2: Konfigurasikan manajemen penyamaran data
DataWorks memungkinkan Anda mengonfigurasi aturan penyamaran data untuk menyamarkan bidang sensitif dalam tabel EMR. Untuk informasi lebih lanjut, lihat Buat Aturan Penyamaran Data.
Pergi ke halaman Manajemen Penyamaran Data
Masuk ke DataWorks console dan pergi ke halaman Data Security Guard. Untuk informasi lebih lanjut, lihat Ikhtisar.
Klik Try Now. Halaman utama Penjaga Keamanan Data homepage muncul.
Di panel navigasi sisi kiri, pilih . Pada halaman Data Masking Management, Anda dapat membuat skenario dan mengonfigurasi aturan penyamaran data dalam skenario tersebut.
Buat skenario penyamaran data
DataWorks menyediakan skenario penyamaran data dinamis, seperti Data development / Data map display desensitization, Data analysis and display desensitization, Layer masking of the MaxCompute engine, dan Hologres layer masking. DataWorks juga menyediakan skenario Static desensitization of data integration. Skenario penyamaran data di atas adalah skenario penyamaran data tingkat-1, yang tetap dan tidak dapat dibuat, dimodifikasi, atau dihapus. Anda dapat mengonfigurasi skenario penyamaran data tingkat-2 berdasarkan skenario penyamaran data tingkat-1. Untuk informasi lebih lanjut, lihat Buat Skenario Penyamaran Data.
Dalam contoh ini, skenario penyamaran data Data development / Data map display desensitization dan Data analysis and display desensitization digunakan.
Nama skenario penyamaran data tingkat-2 yang dikonfigurasi berdasarkan skenario penyamaran data tingkat-1 Data development / Data map display desensitization:
pengembangan demonstrasiNama skenario penyamaran data tingkat-2 yang dikonfigurasi berdasarkan skenario penyamaran data tingkat-1 Data analysis and display desensitization:
analisis SQL
Buat aturan penyamaran data
Setelah Anda membuat skenario penyamaran data, Anda dapat mengklik Aturan Penyamaran di sudut kanan atas untuk membuat aturan penyamaran data. Ulangi langkah-langkah untuk membuat aturan penyamaran data untuk jenis bidang sensitif gender, telepon, dan email. Untuk informasi lebih lanjut, lihat Buat Aturan Penyamaran Data.
Pilih skenario penyamaran data.
Di bagian Masking Scene halaman Data Masking Management, klik Default scene di bawah dan kemudian klik + Masking Rule di sudut kanan atas halaman.
Buat aturan penyamaran data.
Di kotak dialog Buat Aturan Penyamaran Data, konfigurasikan parameter-parameter seperti Sensitive Field Type, Data Masking Rule Name, Data Masking Scenario, dan Masking Mode. Untuk informasi lebih lanjut, lihat bagian Entri untuk Mengonfigurasi Aturan Penyamaran Data dalam topik "Buat Aturan Penyamaran Data".
Tabel berikut menjelaskan konfigurasi aturan penyamaran data untuk setiap jenis bidang sensitif yang dibuat.
Parameter
Deskripsi
gender
email
telepon
Jenis Bidang Sensitif
gender
email
telepon
Nama Aturan Penyamaran Data
gender
email
telepon
Skenario Penyamaran Data
pengembangan demonstrasidananalisis SQLpengembangan demonstrasidananalisis SQLpengembangan demonstrasidananalisis SQLMode Penyamaran
Karakter untuk mengganti
Posisi Penggantian
Ganti Semua Karakter
Posisi Penggantian
Ganti dengan Nilai Acak
HASH
Watermarking Data
Dimatikan
Algoritma Enkripsi
MDS
Nilai Garam
5
Penyamaran
Mode Redaksi
CatatanAnda dapat menggunakan metode lain untuk menyamarkan data. Dalam contoh ini, Characters to replace, HASH, dan Masking out digunakan. Untuk informasi lebih lanjut, lihat bagian Konfigurasikan Metode Penyamaran Data dalam topik "Buat Aturan Penyamaran Data".
Langkah 3: Aktifkan identifikasi data sensitif
Setelah Penjaga Keamanan Data dalam lingkungan produksi memperoleh metadata EMR setiap hari, Penjaga Keamanan Data memanggil Operasi API DataWorks untuk mendapatkan data sampel tabel dan mengidentifikasi bidang sensitif berdasarkan aturan identifikasi data sensitif. Dalam contoh ini, Anda dapat secara manual mengaktifkan aturan identifikasi data sensitif untuk mengidentifikasi bidang sensitif.
Di panel navigasi sisi kiri, pilih . Halaman Sensitive Data Identification muncul.
Di sudut kiri atas halaman Sensitive Data Identification, klik Jalankan Tugas. Di panel Enable sensitive data identification tasks
Task Type: Atur ke Tugas Manual.
Account Used for Identification: Akun ini digunakan untuk menyampel dan memindai data. Cakupan data yang dapat disampel bergantung pada izin akun. Pada contoh ini, Alibaba Cloud Account dipilih.
Content Identification: Atur ke Pengenalan Konten atau pengenalan metadata. Dalam contoh ini, Pengenalan Konten dipilih.
Sampling quantity: Anda dapat menentukan nilai berdasarkan kebutuhan bisnis Anda. Kami sarankan menggunakan nilai default 100.
Scanning range: Atur ke Seluruh atau Partial data. Jika Anda mengatur parameter ke Sebagian Data, Anda harus menentukan rentang data yang perlu dipindai dengan menentukan ruang kerja dan database.

Dalam contoh ini, tabel
onefall_test_dsgdigunakan.
Setelah Anda memilih rentang pemindaian, klik Run di sudut kanan bawah panel untuk mengaktifkan tugas identifikasi data sensitif.
CatatanDi tab Task Execution Records halaman Sensitive Data Identification, Anda dapat melihat detail eksekusi tugas identifikasi data sensitif.
Lihat hasil eksekusi pernyataan SQL
Pratinjau hasil penyamaran data tabel EMR
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, klik Go to Data Map.
Klik ikon
di panel navigasi sisi kiri halaman DataMap. Pada halaman yang muncul, klik daftar drop-down di bilah navigasi atas dan pilih E-MapReduce. Kemudian, masukkan onefall_test_dsgdi kotak pencarian.Klik nama tabel onefall_test_dsg untuk pergi ke halaman detail tabel. Kemudian, klik tab Pratinjau Data untuk melihat pratinjau data tabel.

Di tab Data Preview, bidang dalam tabel disamarkan berdasarkan aturan identifikasi data sensitif dan aturan penyamaran data yang dikonfigurasikan.
Lihat hasil penyamaran data di halaman Data Studio
Apakah Anda dapat melihat hasil penyamaran data di halaman Data Studio dikendalikan oleh konfigurasi parameter Mask Data in Page Query Results di bagian Keamanan Data pada tab Pengaturan Keamanan dan Lainnya di Data Studio. Anda dapat melakukan langkah-langkah berikut untuk mengonfigurasi parameter:
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Halaman Pengaturan muncul.Di halaman Pengaturan, klik Security Settings and Others. Di bagian Data Security, aktifkan opsi Mask Data in Page Query Results.
Uji efek penyamaran data yang ditanyakan
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di panel navigasi sisi kiri, klik ikon
. Di panel Ad Hoc Query, gerakkan pointer di atas ikon
dan pilih untuk membuat node kueri ad hoc.Tanyakan tabel
onefall_test_dsgdi node dan lihat efek penyamaran tabel di halaman Data Studio.SELECT * FROM onefall_test_dsg;