Komponen Informasi Hak Cipta LLM-Bersih dari Platform for AI (PAI) digunakan untuk menghapus informasi hak cipta dari teks, seperti header komentar hak cipta dalam kode. Komponen ini dapat digunakan selama pra-pemrosesan teks model bahasa besar (LLM).
Sumber daya komputasi yang didukung
Deskripsi algoritma
Algoritma melakukan langkah-langkah berikut untuk menghapus informasi hak cipta dari teks:
Memeriksa apakah teks mencakup string yang sesuai dengan ekspresi reguler
'/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'.Jika string yang sesuai ditemukan, algoritma memeriksa apakah string tersebut mengandung bidang
copyright. Jika string mengandung bidang tersebut, algoritma menghapus string dan mengembalikan hasilnya. Jika tidak, algoritma langsung mengembalikan hasilnya.Jika ekspresi reguler tidak cocok, lanjutkan ke langkah 2.
Membagi teks menggunakan pemisah baris baru. Algoritma melintasi teks per baris untuk memeriksa apakah baris dimulai dengan karakter komentar berikut:
//,#, atau--. Jika baris yang memenuhi kondisi ditemukan, algoritma terus melintasi teks hingga simbol komentar berakhir. Baris komentar berturut-turut dihapus.
Algoritma hanya memeriksa bagian header dari teks. Contoh:
Sebelum diproses
| Setelah diproses
|
Konfigurasikan komponen
Tambahkan komponen LLM-Clean Copyright Information (MaxCompute) pada halaman pipeline Machine Learning Designer dan konfigurasikan parameter berikut.
Kategori | Parameter | Nilai default | Deskripsi |
Fields Setting | Select Target Column | Tidak ada | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. |
Siklus hidup tabel keluaran | 28 | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | |
Tuning | Number of CPUs per instance of map task | 100 | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. |
The memory size per instance of map task | 1.024 | Ukuran memori setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12.288. | |
The maximum size of input data for a map | 256 | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat mengontrol input map menggunakan parameter ini. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. |

