DataWorks memungkinkan Anda melatih model menggunakan bidang sampel untuk mengidentifikasi fitur konten dan menghasilkan model aturan. Fitur ini dapat digunakan untuk menemukan data dalam aset data Anda yang memiliki fitur konten serupa. Topik ini menjelaskan cara membuat model deteksi data kustom.
Batasan
DataWorks tidak mendukung pelatihan model untuk bidang sampel dengan jumlah entri kurang dari 10. Panjang data setiap entri harus antara 4 hingga 40 karakter. Ukuran sampel harus berada dalam rentang 10 hingga 10.000 entri. Jika ukuran total sampel dari bidang yang dipilih melebihi 10.000 entri, sistem akan memilih secara acak 10.000 entri untuk pelatihan. Jika ukuran sampel kurang dari 10.000 entri, sistem akan menggunakan semua entri yang tersedia.
DataWorks hanya mendukung pelatihan model untuk data yang berisi angka, huruf Inggris, dan karakter khusus. Pelatihan model tidak didukung untuk bidang sampel yang berisi karakter Tiongkok atau tanda baca Tiongkok.
Membuat model
Buka Data Security Guard.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, klik Go to Security Center.
Di panel navigasi sebelah kiri, klik untuk membuka halaman Data Security Guard.
CatatanJika Akun Alibaba Cloud Anda telah diberikan izin yang diperlukan, Anda dapat langsung mengakses halaman Data Security Guard.
Jika Akun Alibaba Cloud Anda belum diberikan izin yang diperlukan, Anda akan diarahkan ke halaman otorisasi Data Security Guard. Anda hanya dapat menggunakan fitur Data Security Guard setelah Akun Alibaba Cloud Anda diberikan izin yang diperlukan.
Di panel navigasi sebelah kiri, pilih untuk membuka halaman Sensitive Data Detection.
Buat dan latih model.
Pada tab Self-generated Data Detection Model, klik Create Model.
Pada kotak dialog Create Model, konfigurasikan Model Name dan pilih sampel pelatihan.
Positive Sample Field: Pilih bidang sampel untuk pelatihan dari ruang kerja tertentu. DataWorks mengidentifikasi fitur konten dari bidang-bidang ini dan menghasilkan model aturan. Anda kemudian dapat menggunakan model aturan ini untuk menemukan data dalam aset data Anda yang memiliki fitur konten serupa.
CatatanDataWorks tidak mendukung pelatihan model untuk bidang sampel dengan jumlah entri kurang dari 10. Panjang data setiap entri harus antara 4 hingga 40 karakter. Ukuran sampel harus berada dalam rentang 10 hingga 10.000 entri. Jika ukuran total sampel dari bidang yang dipilih melebihi 10.000 entri, sistem akan memilih secara acak 10.000 entri untuk pelatihan. Jika ukuran sampel kurang dari 10.000 entri, sistem akan menggunakan semua entri yang tersedia.
DataWorks hanya mendukung pelatihan model untuk data yang berisi angka, huruf Inggris, dan karakter khusus. Pelatihan model tidak didukung untuk bidang sampel yang berisi karakter Tiongkok atau tanda baca Tiongkok.
Negative Sample Field: Untuk meningkatkan akurasi model, Anda dapat memilih bidang sampel negatif. Sistem menggunakan data dari bidang-bidang ini sebagai sampel negatif untuk pelatihan. Jika Anda tidak memilih sampel negatif, sistem akan menghasilkannya secara otomatis berdasarkan fitur dan jumlah sampel positif Anda.
Klik Next.
Pilih I accept that Data Security Guard will use samples for model training dan klik Start Training.
Untuk pelatihan ini, sistem mengekstraksi secara acak hingga 100 entri data dari setiap bidang sampel yang dipilih. Perkiraan waktu yang dibutuhkan untuk pelatihan tergantung pada jumlah bidang sampel.
CatatanPelatihan model dapat memakan waktu lama. Anda dapat menutup kotak dialog pelatihan dan melakukan operasi lain selagi model dilatih di latar belakang.
Lihat hasil pelatihan model.
Pada halaman Self-generated Data Detection Model, Anda dapat melihat status dan hasil pelatihan model. Berdasarkan hasil tersebut, Anda dapat memutuskan apakah model siap dipublikasikan dan digunakan untuk deteksi data.

Lihat status pelatihan.
Remaining hh:mm:ss: Model sedang dalam proses pelatihan.
Training Completed: Pelatihan model telah selesai. Anda dapat mengevaluasi hasil pelatihan untuk memutuskan apakah model dapat digunakan untuk deteksi data.
Draft: Model telah dibuat tetapi belum dilatih. Model ini tidak dapat digunakan untuk deteksi data.
Lihat hasil pelatihan.
Klik ikon
di kolom Actions model yang telah dilatih untuk melihat akurasi model dalam mengidentifikasi data sampel. Kami menyarankan agar Anda hanya menerapkan model ini ke lingkungan online ketika akurasinya mencapai 100%.CatatanJika akurasi model kurang dari 100%, hasil deteksi mungkin mengandung kesalahan signifikan. Jika hal ini terjadi, tambahkan lebih banyak data sampel dan latih ulang model tersebut. Publikasikan model hanya setelah akurasinya mencapai 100%.

Klik Create untuk membuat model aturan.
Langkah selanjutnya
Setelah membuat model aturan, buka halaman Data Detection Rules untuk mempublikasikan model dan menggunakannya untuk mendeteksi data. Untuk informasi selengkapnya tentang penggunaan model kustom di halaman Data Detection Rules, lihat Configure data detection rules and run detection tasks.