Algoritma pemrosesan data Large Language Model (LLM) memungkinkan Anda mengedit, mentransformasi, menyaring, dan menghapus duplikat sampel data. Dengan menggabungkan berbagai algoritma, Anda dapat menyaring data yang sesuai dan menghasilkan teks yang memenuhi kebutuhan Anda. Proses ini menyiapkan data berkualitas tinggi untuk pelatihan LLM. Topik ini menggunakan sejumlah kecil data dari dataset open source RedPajama arXiv sebagai contoh untuk menunjukkan cara menggunakan komponen pemrosesan data LLM di PAI guna membersihkan dan memproses data arXiv.
Deskripsi Dataset
Template preset 'Pemrosesan Data LLM-arXiv (Data Tesis)' di Machine Learning Designer menggunakan dataset dengan 5.000 sampel yang diekstraksi dari data mentah proyek open source RedPajama.
Buat dan jalankan pipeline
Buka halaman Machine Learning Designer.
Masuk ke Konsol PAI.
Di pojok kiri atas, pilih Wilayah.
Di panel navigasi sebelah kiri, klik Workspace Management, lalu klik nama ruang kerja Anda untuk membukanya.
Di panel navigasi sebelah kiri, pilih Model Development And Training > Machine Learning Designer untuk membuka halaman Machine Learning Designer.
Buat pipeline.
Di tab Preset Templates, pilih Business Domain > LLM Large Language Model. Pada kartu template LLM Data Processing-arXiv (Thesis Data), klik Create.

Konfigurasikan parameter alur kerja atau pertahankan pengaturan default, lalu klik OK.
Dalam daftar alur kerja, pilih alur kerja yang telah dibuat dan klik Enter Pipeline.
Deskripsi Alur Kerja:

Alur kerja ini mencakup komponen algoritma utama berikut:
LLM-Sensitive Information Mask (MaxCompute)-1
Menyembunyikan informasi sensitif di bidang "text". Contohnya:
Mengganti alamat email dengan
[EMAIL].Mengganti nomor telepon dengan
[TELEPHONE]atau[MOBILEPHONE].Mengganti nomor ID kartu dengan
IDNUM.
LLM-Special Content Removal (MaxCompute)-1
Menghapus URL dari bidang "text".
LLM-Text Normalization (MaxCompute)-1
Memperbaiki normalisasi Unicode pada teks di bidang "text". Juga mengonversi karakter Cina Tradisional menjadi Cina Sederhana.
LLM-Count Filter (MaxCompute)-1
Menghapus sampel dari bidang "text" yang tidak memenuhi jumlah atau rasio karakter alfanumerik tertentu. Sebagian besar karakter dalam dataset arXiv adalah huruf dan angka. Komponen ini dapat menghapus beberapa data kotor.
LLM-Length Filter (MaxCompute)-1
Menyaring sampel berdasarkan panjang garis rata-rata di bidang "text". Panjang rata-rata dihitung dengan memisahkan sampel menggunakan karakter line feed (
\n).LLM-N-Gram Repetition Filter (MaxCompute)-1
Menyaring sampel di bidang "text" berdasarkan laju pengulangan N-gram tingkat karakter. Komponen ini memindahkan jendela geser N-karakter di seluruh teks untuk membuat urutan segmen. Setiap segmen adalah gram. Komponen ini menghitung frekuensi masing-masing gram. Laju pengulangan dihitung menggunakan rumus:
(Total frekuensi gram yang muncul lebih dari sekali) / (Total frekuensi semua gram). Sampel disaring berdasarkan laju ini.LLM-Sensitive Words Filter (MaxCompute)-1
Menggunakan file kata sensitif yang telah ditetapkan sistem untuk menyaring sampel di bidang "text" yang mengandung kata-kata sensitif.
LLM-Length Filter (MaxCompute)-2
Menyaring sampel berdasarkan panjang maksimum baris di bidang "text". Panjang maksimum baris dihitung dengan memisahkan sampel menggunakan karakter line feed (
\n).LLM-Perplexity Filter (MaxCompute)-1
Menghitung perplexity teks di bidang "text" dan menyaring sampel berdasarkan ambang batas perplexity yang ditentukan.
LLM-Special Characters Ratio Filter (MaxCompute)-1
Menghapus sampel dari bidang "text" yang tidak memenuhi rasio karakter khusus yang ditentukan.
LLM-Length Filter (MaxCompute)-3
Menyaring sampel berdasarkan panjang bidang "text".
LLM-Tokenization (MaxCompute)-1
Memisahkan teks di bidang "text" menjadi token dan menyimpan hasilnya ke kolom baru.
LLM-Length Filter (MaxCompute)-4
Memisahkan sampel di bidang "text" menjadi daftar kata menggunakan karakter spasi (
" ") sebagai pemisah. Kemudian menyaring sampel berdasarkan panjang daftar, yaitu jumlah kata.LLM-N-Gram Repetition Filter (MaxCompute)-2
Menyaring sampel di bidang "text" berdasarkan laju pengulangan N-gram tingkat kata. Semua kata dikonversi ke huruf kecil sebelum laju pengulangan dihitung. Komponen ini memindahkan jendela geser N-kata di seluruh teks untuk membuat urutan segmen. Setiap segmen adalah gram. Komponen ini menghitung frekuensi masing-masing gram. Laju pengulangan dihitung menggunakan rumus:
(Total frekuensi gram yang muncul lebih dari sekali) / (Total frekuensi semua gram). Sampel disaring berdasarkan laju ini.LLM-MinHash Deduplicator (MaxCompute)-1
Menghapus sampel serupa berdasarkan algoritma MinHash.
Jalankan pipeline.
Setelah alur kerja selesai dijalankan, klik kanan komponen Write To Data Table-1 dan pilih View Data > Output untuk melihat sampel yang telah diproses oleh komponen sebelumnya.

Referensi
Untuk informasi lebih lanjut tentang komponen algoritma LLM, lihat Pemrosesan Data LLM (MaxCompute).