全部产品
Search
文档中心

Platform For AI:LLM-Konten Khusus Bersih (MaxCompute)

更新时间:Jul 02, 2025

Komponen LLM-Konten Khusus Bersih (MaxCompute) dari Platform for AI (PAI) digunakan untuk menghapus konten tertentu dari teks, seperti informasi navigasi, penulis atau sumber teks, URL, karakter non-cetak, dan karakter HTML khusus. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLM).

Batasan

Komponen LLM-Konten Khusus Bersih (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Komponen LLM-Konten Khusus Bersih (MaxCompute) melakukan operasi berikut pada teks:

Menggunakan pemisah baris untuk membagi teks menjadi beberapa baris.

  • Menghapus informasi navigasi.

    • Kata kunci: 'Homepage>', 'Homepage»', 'Homepage/', dan 'Homepage|'.

    • Ekspresi reguler: 'Current location:.*[>]{1,}' dan 'Location:.*[>]{1,}'.

    • Komponen menghapus baris teks yang berisi kata kunci sebelumnya atau cocok dengan ekspresi reguler sebelumnya dari teks.

  • Menghapus informasi penulis.

    Komponen menghapus baris teks yang berisi salah satu kata kunci berikut dan setidaknya satu karakter khusus dari teks. Karakter khusus termasuk . ? ! ; : . ? ! ; , , !.

    Kata kunci: 'Wartawan surat kabar', 'Sumber:', 'Edit:', 'Masuk | Daftar', 'Alamat topik ini:', 'Tanggal publikasi:', 'Waktu tambahan:', 'Bagikan ke:', '"Pindai"', 'Tautan terkait:', 'Undian', 'Navigasi situs web', '| Hubungi kami', 'Beranda', 'Lokasi saat ini:', 'Diterbitkan di', dan 'Lokasi: '.

  • Menghapus informasi sumber.

    Ekspresi reguler: r'(\d{4}[-/tahun]\d{1,2}[-/bulan]\d{1,2}[hari]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})' dan r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[Sumber: | Edit:]'.

    Komponen mencocokkan ekspresi reguler sebelumnya hanya dalam lima baris teks pertama, dan menghapus baris teks yang cocok dari lima baris teks pertama.

    Catatan

    Jika informasi navigasi dan informasi penulis dihapus dari teks, lima baris teks pertama dihitung berdasarkan teks setelah informasi tersebut dihapus, bukan berdasarkan teks asli.

  • Menghapus URL.

    Komponen menghapus karakter yang cocok dengan ekspresi reguler r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+' dari teks.

  • Menghapus karakter non-cetak.

    Komponen menghapus karakter yang cocok dengan ekspresi reguler '[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+' dari teks.

  • Menghapus karakter HTML dan mengurai teks HTML.

    Komponen mengganti '<li>' dalam teks dengan '\n*', mengganti '<ol>' dalam teks dengan '\n*', dan menghapus '</li>' dan '</ol>' dari teks. Kemudian, komponen mengurai teks HTML.

Gambar berikut menunjukkan contoh penghapusan URL dari teks.

  • Sebelum diproses

    image

  • Setelah diproses

    image

Konfigurasi komponen

Anda dapat mengonfigurasi parameter komponen di modul Machine Learning Designer dari konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak ada nilai default

Siklus hidup tabel keluaran

Tidak

Nilainya adalah bilangan bulat positif. Unit: hari. Nilai default: 28. Setelah siklus hidup tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas peta. Nilai valid: [50,800].

100

The memory size per instance of map task

Tidak

Ukuran memori setiap instance tugas peta. Unit: MB. Nilai valid: [256,12288].

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah peta. Unit: MB. Nilai valid: [1,Integer.MAX_VALUE].

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.