全部产品
Search
文档中心

DataWorks:Contoh praktik untuk menyamarkan data dasar dalam kluster E-MapReduce

更新时间:Oct 28, 2025

Jika pengguna memiliki izin untuk menanyakan data sensitif tertentu dalam kluster E-MapReduce (EMR) tetapi Anda tidak ingin pengguna tersebut melihat data secara lengkap, Anda dapat mengaktifkan fitur penyamaran data dinamis untuk EMR guna menyamarkan data sensitif secara dinamis dalam hasil kueri. Topik ini menjelaskan cara mengaktifkan fitur penyamaran data dinamis untuk EMR dan memberikan contoh penggunaannya sebagai referensi.

Batasan

  • Kluster EMR hanya mendukung fitur identifikasi data sensitif dan penyamaran data dari Penjaga Keamanan Data.

  • Fitur identifikasi data sensitif dan penyamaran data hanya didukung oleh jenis kluster EMR dan tabel tertentu. Untuk informasi lebih lanjut, lihat bagian Jenis tabel Hive apa yang dapat dipratinjau di Peta Data? dalam topik "Tata Kelola Data".

  • Metadata di sisi Penjaga Keamanan Data diperbarui dengan penundaan satu hari. Jika Anda ingin menyamarkan data EMR, data EMR yang ingin disamarkan harus dibuat satu hari sebelumnya.

  • Hanya kelompok sumber daya eksklusif untuk penjadwalan yang didukung. Untuk informasi lebih lanjut, lihat Penagihan kelompok sumber daya eksklusif untuk penjadwalan.

Persiapan

Prasyarat

Secara default, Penjaga Keamanan Data menggunakan akun kluster EMR yang memetakan ke Akun Alibaba Cloud Anda untuk data sampel. Jika Protokol Akses Direktori Ringan (LDAP) atau Otentikasi Kerberos diaktifkan untuk kluster EMR Anda dan Ranger atau DLF-Auth digunakan untuk mengelola izin tabel, Anda harus mengonfigurasi pemetaan antara Akun Alibaba Cloud dan akun kluster EMR. Pastikan bahwa akun kluster EMR yang dipetakan memiliki izin yang diperlukan untuk mengakses tabel dalam kluster EMR. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi EMR.

Menyiapkan data

Membuat tabel EMR

  1. Pergi ke halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di panel DATASTUDIO pada halaman Data Studio, klik ikon Buat dan pilih Create Node > EMR > EMR Hive.

  3. Ubah kode node dan buat tabel onefall_test_dsg.

    CREATE TABLE IF NOT EXISTS onefall_test_dsg
    (
        username  STRING
        ,gender   STRING
        ,phone    STRING
        ,email    STRING
        ,card_no  STRING
        ,address  STRING
        ,zip_code STRING
    )
    ROW FORMAT DELIMITED 
    FIELDS
    TERMINATED
    BY','
    ;
  4. Impor data uji ke tabel onefall_test_dsg.

    1. Unduh file data uji data.csv.

    2. Impor data uji.

      • Unggah file data.csv ke node dalam kluster EMR dan jalankan pernyataan SQL berikut untuk memuat data uji:

        LOAD DATA LOCAL INPATH '/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg;
      • Unggah file data.csv ke bucket Layanan Penyimpanan Objek (OSS) dan jalankan pernyataan SQL berikut untuk memuat data uji:

        LOAD DATA INPATH 'oss://bucket-name.Endpoint/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg
        ;

Perbarui metadata di sisi Penjaga Keamanan Data

Metadata di sisi Penjaga Keamanan Data diperbarui dengan penundaan satu hari. Setelah Anda membuat dan menerbitkan tabel onefall_test_dsg, Anda harus menunggu hingga hari berikutnya sebelum melakukan operasi penyamaran data.

Konfigurasikan penyamaran data

Langkah 1: Buat aturan identifikasi data sensitif

DataWorks menggunakan aturan identifikasi data sensitif untuk mengidentifikasi bidang sensitif dalam tabel EMR. Anda harus mengonfigurasi aturan identifikasi data sensitif sebelum mengonfigurasi aturan penyamaran data. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Identifikasi Data Sensitif dan Jalankan Tugas Identifikasi Data Sensitif.

Pergi ke tab Aturan Identifikasi Data

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Governance > Security Center. Pada halaman yang muncul, klik Go to Security Center.

  2. Di panel navigasi sisi kiri, klik Data usage security > Sensitive data management untuk pergi ke halaman Data Security Guard.

    Catatan
    • Jika Akun Alibaba Cloud Anda diberi izin yang diperlukan, Anda dapat langsung mengakses halaman Penjaga Keamanan Data.

    • Jika Akun Alibaba Cloud Anda tidak diberi izin yang diperlukan, Anda akan dialihkan ke halaman otorisasi Penjaga Keamanan Data. Anda hanya dapat menggunakan fitur-fitur Penjaga Keamanan Data setelah Akun Alibaba Cloud Anda diberi izin yang diperlukan.

  1. Di panel navigasi sisi kiri, pilih Rule Configuration > Sensitive Data Identification. Tab Data Identification Rules muncul.

Konfigurasikan aturan identifikasi data sensitif

Dalam contoh ini, aturan identifikasi data sensitif dibuat untuk mengidentifikasi bidang gender, telepon, dan email dalam tabel onefall_test_dsg yang dibuat dalam bagian persiapan data.

  1. Tentukan kategori data untuk jenis bidang sensitif yang ingin Anda buat.

    Di bagian BuildInClassificationTemplate di sisi kiri tab Aturan Identifikasi Data, pilih kategori data tempat jenis bidang sensitif yang dibuat termasuk. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Identifikasi Data Sensitif dan Jalankan Tugas Identifikasi Data Sensitif.

  2. Buat jenis bidang sensitif dan konfigurasikan aturan identifikasi data sensitif untuk jenis tersebut.

    Di sudut kanan atas tab, klik Sensitive Field Type. Panel tempat Anda dapat mengonfigurasi aturan identifikasi data sensitif muncul. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Identifikasi Data Sensitif dan Jalankan Tugas Identifikasi Data Sensitif.

    Catatan

    Untuk membantu pengguna memahami jenis bidang sensitif, Anda dapat menggunakan nama bidang gender, telepon, dan email dari tabel onefall_test_dsg sebagai jenis bidang sensitif.

  3. Setelah Anda mengonfigurasi the sensitive data identification rules, klik Batch Publish di sudut kanan atas dan pilih aturan identifikasi data sensitif yang dibuat untuk menerbitkannya sekaligus.image

Langkah 2: Konfigurasikan manajemen penyamaran data

DataWorks memungkinkan Anda mengonfigurasi aturan penyamaran data untuk menyamarkan bidang sensitif dalam tabel EMR. Untuk informasi lebih lanjut, lihat Buat Aturan Penyamaran Data.

Pergi ke halaman Manajemen Penyamaran Data

  1. Masuk ke DataWorks console dan pergi ke halaman Data Security Guard. Untuk informasi lebih lanjut, lihat Ikhtisar.

  2. Klik Try Now. Halaman utama Penjaga Keamanan Data homepage muncul.

  3. Di panel navigasi sisi kiri, pilih Rule Configuration > Data Masking Management. Pada halaman Data Masking Management, Anda dapat membuat skenario dan mengonfigurasi aturan penyamaran data dalam skenario tersebut.

Buat skenario penyamaran data

  • DataWorks menyediakan skenario penyamaran data dinamis, seperti Data development / Data map display desensitization, Data analysis and display desensitization, Layer masking of the MaxCompute engine, dan Hologres layer masking. DataWorks juga menyediakan skenario Static desensitization of data integration. Skenario penyamaran data di atas adalah skenario penyamaran data tingkat-1, yang tetap dan tidak dapat dibuat, dimodifikasi, atau dihapus. Anda dapat mengonfigurasi skenario penyamaran data tingkat-2 berdasarkan skenario penyamaran data tingkat-1. Untuk informasi lebih lanjut, lihat Buat Skenario Penyamaran Data.

  • Dalam contoh ini, skenario penyamaran data Data development / Data map display desensitization dan Data analysis and display desensitization digunakan.

    • Nama skenario penyamaran data tingkat-2 yang dikonfigurasi berdasarkan skenario penyamaran data tingkat-1 Data development / Data map display desensitization: pengembangan demonstrasi

    • Nama skenario penyamaran data tingkat-2 yang dikonfigurasi berdasarkan skenario penyamaran data tingkat-1 Data analysis and display desensitization: analisis SQL

Buat aturan penyamaran data

Setelah Anda membuat skenario penyamaran data, Anda dapat mengklik Aturan Penyamaran di sudut kanan atas untuk membuat aturan penyamaran data. Ulangi langkah-langkah untuk membuat aturan penyamaran data untuk jenis bidang sensitif gender, telepon, dan email. Untuk informasi lebih lanjut, lihat Buat Aturan Penyamaran Data.

  1. Pilih skenario penyamaran data.

    Di bagian Masking Scene halaman Data Masking Management, klik Default scene di bawah Data development / Data map display desensitization dan kemudian klik + Masking Rule di sudut kanan atas halaman.

  2. Buat aturan penyamaran data.

    • Di kotak dialog Buat Aturan Penyamaran Data, konfigurasikan parameter-parameter seperti Sensitive Field Type, Data Masking Rule Name, Data Masking Scenario, dan Masking Mode. Untuk informasi lebih lanjut, lihat bagian Entri untuk Mengonfigurasi Aturan Penyamaran Data dalam topik "Buat Aturan Penyamaran Data".

    • Tabel berikut menjelaskan konfigurasi aturan penyamaran data untuk setiap jenis bidang sensitif yang dibuat.

      Parameter

      Deskripsi

      gender

      email

      telepon

      Jenis Bidang Sensitif

      gender

      email

      telepon

      Nama Aturan Penyamaran Data

      gender

      email

      telepon

      Skenario Penyamaran Data

      pengembangan demonstrasi dan analisis SQL

      pengembangan demonstrasi dan analisis SQL

      pengembangan demonstrasi dan analisis SQL

      Mode Penyamaran

      Karakter untuk mengganti

      Posisi Penggantian

      Ganti Semua Karakter

      Posisi Penggantian

      Ganti dengan Nilai Acak

      HASH

      Watermarking Data

      Dimatikan

      Algoritma Enkripsi

      MDS

      Nilai Garam

      5

      Penyamaran

      Mode Redaksi

      Recommended Method > Show first three and last four characters

      Catatan

      Anda dapat menggunakan metode lain untuk menyamarkan data. Dalam contoh ini, Characters to replace, HASH, dan Masking out digunakan. Untuk informasi lebih lanjut, lihat bagian Konfigurasikan Metode Penyamaran Data dalam topik "Buat Aturan Penyamaran Data".

Langkah 3: Aktifkan identifikasi data sensitif

Setelah Penjaga Keamanan Data dalam lingkungan produksi memperoleh metadata EMR setiap hari, Penjaga Keamanan Data memanggil Operasi API DataWorks untuk mendapatkan data sampel tabel dan mengidentifikasi bidang sensitif berdasarkan aturan identifikasi data sensitif. Dalam contoh ini, Anda dapat secara manual mengaktifkan aturan identifikasi data sensitif untuk mengidentifikasi bidang sensitif.

  1. Di panel navigasi sisi kiri, pilih Rule Configuration > Sensitive Data Identification. Halaman Sensitive Data Identification muncul.

  2. Di sudut kiri atas halaman Sensitive Data Identification, klik Jalankan Tugas. Di panel Enable sensitive data identification tasks

    • Task Type: Atur ke Tugas Manual.

    • Account Used for Identification: Akun ini digunakan untuk menyampel dan memindai data. Cakupan data yang dapat disampel bergantung pada izin akun. Pada contoh ini, Alibaba Cloud Account dipilih.

    • Content Identification: Atur ke Pengenalan Konten atau pengenalan metadata. Dalam contoh ini, Pengenalan Konten dipilih.

    • Sampling quantity: Anda dapat menentukan nilai berdasarkan kebutuhan bisnis Anda. Kami sarankan menggunakan nilai default 100.

    • Scanning range: Atur ke Seluruh atau Partial data. Jika Anda mengatur parameter ke Sebagian Data, Anda harus menentukan rentang data yang perlu dipindai dengan menentukan ruang kerja dan database.image

    • Dalam contoh ini, tabel onefall_test_dsg digunakan.

  3. Setelah Anda memilih rentang pemindaian, klik Run di sudut kanan bawah panel untuk mengaktifkan tugas identifikasi data sensitif.

    Catatan

    Di tab Task Execution Records halaman Sensitive Data Identification, Anda dapat melihat detail eksekusi tugas identifikasi data sensitif.

Lihat hasil eksekusi pernyataan SQL

Pratinjau hasil penyamaran data tabel EMR

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.

  2. Klik ikon image di panel navigasi sisi kiri halaman DataMap. Pada halaman yang muncul, klik daftar drop-down di bilah navigasi atas dan pilih E-MapReduce. Kemudian, masukkan onefall_test_dsg di kotak pencarian.

  3. Klik nama tabel onefall_test_dsg untuk pergi ke halaman detail tabel. Kemudian, klik tab Pratinjau Data untuk melihat pratinjau data tabel.image

Catatan

Di tab Data Preview, bidang dalam tabel disamarkan berdasarkan aturan identifikasi data sensitif dan aturan penyamaran data yang dikonfigurasikan.

Lihat hasil penyamaran data di halaman Data Studio

Apakah Anda dapat melihat hasil penyamaran data di halaman Data Studio dikendalikan oleh konfigurasi parameter Mask Data in Page Query Results di bagian Keamanan Data pada tab Pengaturan Keamanan dan Lainnya di Data Studio. Anda dapat melakukan langkah-langkah berikut untuk mengonfigurasi parameter:

  1. Pergi ke halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di panel navigasi sisi kiri halaman Data Studio, klik ikon image. Halaman Pengaturan muncul.

  3. Di halaman Pengaturan, klik Security Settings and Others. Di bagian Data Security, aktifkan opsi Mask Data in Page Query Results.

Uji efek penyamaran data yang ditanyakan

  1. Pergi ke halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di panel navigasi sisi kiri, klik ikon image. Di panel Ad Hoc Query, gerakkan pointer di atas ikon image dan pilih Create > EMR Hive untuk membuat node kueri ad hoc.

  3. Tanyakan tabel onefall_test_dsg di node dan lihat efek penyamaran tabel di halaman Data Studio.

    SELECT * FROM onefall_test_dsg;

    image