全部产品
Search
文档中心

Platform For AI:LLM-Sensitive Content Mask (MaxCompute)

更新时间:Jul 02, 2025

Komponen LLM-Sensitive Content Mask (MaxCompute) digunakan untuk menyamarkan informasi sensitif dalam data teks yang dipakai melatih model bahasa besar (LLMs).

Batasan

Komponen LLM-Sensitive Content Mask (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Komponen LLM-Sensitive Content Mask (MaxCompute) menyamarkan informasi sensitif berikut:

  • Nomor ponsel: String yang cocok dengan ekspresi reguler berikut akan diganti dengan [MOBILEPHONE].

    • r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'

    • r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'

    • r'(?<!\d)(1[3-9]\d{9})(?!\d)'

  • Nomor telepon rumah: String yang cocok dengan ekspresi reguler berikut akan diganti dengan [TELEPHONE].

    • r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'

  • Alamat email: String yang cocok dengan ekspresi reguler berikut akan diganti dengan [EMAIL].

    • r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'

  • Nomor kartu identitas penduduk Tiongkok (PRC): String yang cocok dengan ekspresi reguler berikut akan diganti dengan [IDNUM].

    • r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'

    • r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'

Contoh berikut menunjukkan cara alamat email disamarkan.

  • Sebelum pemrosesan

    image

  • Setelah pemrosesan

    image

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LLM-Sensitive Content Mask (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak ada nilai default

Siklus hidup tabel keluaran

Tidak

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800.

100

The memory size per instance of map task

Tidak

Ukuran memori setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12288.

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola input dari sebuah map. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.