全部产品
Search
文档中心

Platform For AI:Filter Kata Kunci Sensitif LLM (MaxCompute)

更新时间:Jun 22, 2025

Gunakan komponen Filter Kata Kunci Sensitif LLM (MaxCompute) untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks yang mengandung kata kunci sensitif.

Sumber daya komputasi yang didukung

MaxCompute

Deskripsi algoritma

Komponen Filter Kata Kunci Sensitif LLM (MaxCompute) memeriksa keberadaan kata kunci sensitif dalam sampel teks dan menyaring teks yang mengandung kata kunci tersebut. Komponen ini juga dapat mengembalikan daftar kata kunci sensitif yang terdeteksi. Secara default, lebih dari 12.000 kata kunci sensitif didukung.

Konfigurasi komponen

Pada halaman detail pipeline di Machine Learning Designer, tambahkan komponen Filter Kata Kunci Sensitif LLM (MaxCompute) ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.

Tab

Parameter

Nilai default

Deskripsi

Fields Setting

Select Target Column

Tidak ada nilai default

Kolom yang ingin Anda proses.

Whether to Save the Sensitive Results

Tidak ada nilai default

Menentukan apakah akan menyimpan hasil deteksi ke tabel output. Jika Anda memilih opsi ini, Anda dapat menggunakan parameter berikut untuk menentukan kolom yang menyimpan hasil deteksi di tabel output:

  • Sensitive bool value saved column name: nama kolom yang menentukan apakah kata kunci sensitif terdeteksi. Kolom ini bertipe BOOL. Nilai default: is_sensitive.

  • Sensitive words saved column name: nama kolom yang menyimpan kata kunci sensitif yang terdeteksi. Nilai default: sensitive_words.

SQL Script

Tidak ada nilai default

Klausa WHERE yang menentukan kondisi filter. Anda dapat menyaring sampel berdasarkan nilai parameter Nama kolom penyimpanan nilai boolean sensitif dan Nama kolom penyimpanan kata-kata sensitif. Jika Anda mengubah nama kolom, konfigurasikan klausa WHERE di bidang Skrip SQL berdasarkan nama kolom yang telah dimodifikasi. Nilai default: where not is_sensitive.

File Kata Kunci Sensitif

File kata kunci sensitif default

Path file kata kunci sensitif. Jika Anda membiarkan parameter ini kosong, daftar kata kunci sensitif default akan digunakan. Isi file harus dalam format "Kata kunci sensitif 1\nKata kunci sensitif 2\n...". Pisahkan beberapa kata kunci sensitif dengan baris baru.

Daur hidup tabel output

28

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

Tuning

Number of CPUs per instance of map task

100

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800.

The memory size per instance of map task

1024

Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12288.

The maximum size of input data for a map

256

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola input sebuah map. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.