Komponen LLM-Konten Khusus Bersih (MaxCompute) dari Platform for AI (PAI) digunakan untuk menghapus konten tertentu dari teks, seperti informasi navigasi, penulis atau sumber teks, URL, karakter non-cetak, dan karakter HTML khusus. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLM).
Batasan
Komponen LLM-Konten Khusus Bersih (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Komponen LLM-Konten Khusus Bersih (MaxCompute) melakukan operasi berikut pada teks:
Menggunakan pemisah baris untuk membagi teks menjadi beberapa baris.
Menghapus informasi navigasi.
Kata kunci:
'Homepage>','Homepage»','Homepage/', dan'Homepage|'.Ekspresi reguler:
'Current location:.*[>]{1,}'dan'Location:.*[>]{1,}'.Komponen menghapus baris teks yang berisi kata kunci sebelumnya atau cocok dengan ekspresi reguler sebelumnya dari teks.
Menghapus informasi penulis.
Komponen menghapus baris teks yang berisi salah satu kata kunci berikut dan setidaknya satu karakter khusus dari teks. Karakter khusus termasuk
. ? ! ; : . ? ! ; , , !.Kata kunci:
'Wartawan surat kabar','Sumber:','Edit:','Masuk | Daftar','Alamat topik ini:','Tanggal publikasi:','Waktu tambahan:','Bagikan ke:','"Pindai"','Tautan terkait:','Undian','Navigasi situs web','| Hubungi kami','Beranda','Lokasi saat ini:','Diterbitkan di', dan'Lokasi: '.
Menghapus informasi sumber.
Ekspresi reguler:
r'(\d{4}[-/tahun]\d{1,2}[-/bulan]\d{1,2}[hari]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})'danr'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[Sumber: | Edit:]'.Komponen mencocokkan ekspresi reguler sebelumnya hanya dalam lima baris teks pertama, dan menghapus baris teks yang cocok dari lima baris teks pertama.
CatatanJika informasi navigasi dan informasi penulis dihapus dari teks, lima baris teks pertama dihitung berdasarkan teks setelah informasi tersebut dihapus, bukan berdasarkan teks asli.
Menghapus URL.
Komponen menghapus karakter yang cocok dengan ekspresi reguler
r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'dari teks.Menghapus karakter non-cetak.
Komponen menghapus karakter yang cocok dengan ekspresi reguler
'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'dari teks.Menghapus karakter HTML dan mengurai teks HTML.
Komponen mengganti
'<li>'dalam teks dengan'\n*', mengganti'<ol>'dalam teks dengan'\n*', dan menghapus'</li>'dan'</ol>'dari teks. Kemudian, komponen mengurai teks HTML.
Gambar berikut menunjukkan contoh penghapusan URL dari teks.
Sebelum diproses

Setelah diproses

Konfigurasi komponen
Anda dapat mengonfigurasi parameter komponen di modul Machine Learning Designer dari konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Diperlukan | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak ada nilai default |
Siklus hidup tabel keluaran | Tidak | Nilainya adalah bilangan bulat positif. Unit: hari. Nilai default: 28. Setelah siklus hidup tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas peta. Nilai valid: [50,800]. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori setiap instance tugas peta. Unit: MB. Nilai valid: [256,12288]. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah peta. Unit: MB. Nilai valid: [1,Integer.MAX_VALUE]. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.