Gunakan komponen Filter Kata Kunci Sensitif LLM (MaxCompute) untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks yang mengandung kata kunci sensitif.
Sumber daya komputasi yang didukung
Deskripsi algoritma
Komponen Filter Kata Kunci Sensitif LLM (MaxCompute) memeriksa keberadaan kata kunci sensitif dalam sampel teks dan menyaring teks yang mengandung kata kunci tersebut. Komponen ini juga dapat mengembalikan daftar kata kunci sensitif yang terdeteksi. Secara default, lebih dari 12.000 kata kunci sensitif didukung.
Konfigurasi komponen
Pada halaman detail pipeline di Machine Learning Designer, tambahkan komponen Filter Kata Kunci Sensitif LLM (MaxCompute) ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.
Tab | Parameter | Nilai default | Deskripsi |
Fields Setting | Select Target Column | Tidak ada nilai default | Kolom yang ingin Anda proses. |
Whether to Save the Sensitive Results | Tidak ada nilai default | Menentukan apakah akan menyimpan hasil deteksi ke tabel output. Jika Anda memilih opsi ini, Anda dapat menggunakan parameter berikut untuk menentukan kolom yang menyimpan hasil deteksi di tabel output:
| |
SQL Script | Tidak ada nilai default | Klausa WHERE yang menentukan kondisi filter. Anda dapat menyaring sampel berdasarkan nilai parameter Nama kolom penyimpanan nilai boolean sensitif dan Nama kolom penyimpanan kata-kata sensitif. | |
File Kata Kunci Sensitif | File kata kunci sensitif default | Path file kata kunci sensitif. Jika Anda membiarkan parameter ini kosong, daftar kata kunci sensitif default akan digunakan. Isi file harus dalam format "Kata kunci sensitif 1\nKata kunci sensitif 2\n...". Pisahkan beberapa kata kunci sensitif dengan baris baru. | |
Daur hidup tabel output | 28 | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | |
Tuning | Number of CPUs per instance of map task | 100 | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. |
The memory size per instance of map task | 1024 | Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12288. | |
The maximum size of input data for a map | 256 | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola input sebuah map. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. |