Komponen LLM-Sensitive Content Mask (MaxCompute) digunakan untuk menyamarkan informasi sensitif dalam data teks yang dipakai melatih model bahasa besar (LLMs).
Batasan
Komponen LLM-Sensitive Content Mask (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Komponen LLM-Sensitive Content Mask (MaxCompute) menyamarkan informasi sensitif berikut:
Nomor ponsel: String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[MOBILEPHONE].r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'
r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'
r'(?<!\d)(1[3-9]\d{9})(?!\d)'
Nomor telepon rumah: String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[TELEPHONE].r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'
Alamat email: String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[EMAIL].r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'
Nomor kartu identitas penduduk Tiongkok (PRC): String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[IDNUM].r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'
r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'
Contoh berikut menunjukkan cara alamat email disamarkan.
Sebelum pemrosesan

Setelah pemrosesan

Konfigurasikan komponen
Anda dapat mengonfigurasi parameter komponen LLM-Sensitive Content Mask (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Diperlukan | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak ada nilai default |
Siklus hidup tabel keluaran | Tidak | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12288. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola input dari sebuah map. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.