Komponen LLM-Sensitive Content Mask (DLC) dari Platform for AI (PAI) digunakan untuk menyembunyikan informasi sensitif dalam teks yang digunakan untuk melatih model bahasa besar (LLMs). File data Object Storage Service (OSS) input harus dalam format JSON Lines dan memenuhi persyaratan berikut: Setiap baris dalam file adalah objek JSON yang valid, serta file terdiri dari beberapa baris objek JSON, tetapi bukan objek JSON yang valid secara keseluruhan. Untuk informasi lebih lanjut, lihat Contoh.
Sumber daya komputasi yang didukung
Deskripsi algoritma
Komponen LLM-Sensitive Content Mask (DLC) menyembunyikan informasi sensitif berikut:
Nomor ponsel: String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[MOBILEPHONE].r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'
r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'
r'(?<!\d)(1[3-9]\d{9})(?!\d)'
Nomor telepon rumah: String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[TELEPHONE].r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'
Alamat email: String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[EMAIL].r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'
Nomor kartu identitas penduduk Republik Rakyat Tiongkok (PRC): String yang cocok dengan ekspresi reguler berikut akan diganti dengan
[IDNUM].r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'
r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'
Contoh berikut menunjukkan bagaimana alamat email disembunyikan:
Sebelum diproses
| Setelah diproses
|
Konfigurasikan komponen
Di halaman pipeline Machine Learning Designer, konfigurasikan parameter dari komponen LLM-Sensitive Content Mask (DLC).
Tab | Parameter | Diperlukan | Deskripsi | Nilai default | |
Pengaturan Bidang | Bidang Proses Target | Ya | Nama bidang yang ingin Anda proses. | Tidak tersedia | |
Direktori OSS untuk Menyimpan OutputData | Tidak | Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja yang digunakan. | Tidak tersedia | ||
Pengaturan | Jumlah Proses | Tidak | Jumlah proses. | 8 | |
Pilih Grup Sumber Daya | Grup Sumber Daya Publik | Tidak | Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan. | Tidak tersedia | |
Grup sumber daya khusus | Tidak | Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan. | Tidak tersedia | ||
Durasi Maksimum Berjalan | Tidak | Periode maksimum waktu selama komponen dapat berjalan. Jika periode ini terlampaui, tugas dihentikan. | Tidak tersedia | ||

