Pemrosesan data LLM: arXiv - Platform For AI - Alibaba Cloud Documentation Center

Algoritma pemrosesan data LLM membantu Anda mengubah sampel data, memfilter konten berkualitas rendah, dan menghapus duplikat. Dengan menggabungkan algoritma sesuai kebutuhan, Anda dapat menghasilkan data berkualitas tinggi untuk pelatihan LLM. Topik ini menggunakan sampel kecil dari set data open-source RedPajama arXiv untuk menunjukkan cara komponen pemrosesan data LLM PAI membersihkan dan memproses data arXiv.

Dataset

Set data untuk templat preset Pemrosesan Data LLM - arXiv (Data Makalah) di Designer terdiri dari 5.000 sampel yang diekstraksi dari data sumber proyek open-source RedPajama.

Buat dan jalankan pipeline

Buka halaman Designer.
1. Masuk ke Konsol PAI.
2. Di pojok kiri atas, pilih Wilayah.
3. Di panel navigasi sebelah kiri, klik Workspaces, lalu klik nama ruang kerja Anda untuk membukanya.
4. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer) untuk membuka halaman Designer.
Buat pipeline.
1. Di tab Preset Templates, pilih Business Area > LLM, lalu klik Create pada kartu templat LLM Data Processing-arXiv (Paper Data).
2. Konfigurasikan parameter pipeline (atau gunakan pengaturan default), lalu klik Confirm.
3. Di daftar pipeline, pilih pipeline baru Anda dan klik Open.

Detail pipeline:

Komponen algoritma utama dalam pipeline:

LLM-Sensitive Information Mask (MaxCompute)-1
Menyamarkan informasi sensitif di bidang text. Contohnya:
- Mengganti alamat email dengan [EMAIL].
- Mengganti nomor telepon atau ponsel dengan [TELEPHONE] atau [MOBILEPHONE].
- Mengganti nomor KTP dengan [IDNUM].
LLM-Special Content Removal (MaxCompute)-1
Menghapus URL dari bidang text.
LLM-Text Normalization (MaxCompute)-1
Menormalisasi teks di bidang text menggunakan Unicode dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana.
LLM-Count Filter (MaxCompute)-1
Menghapus sampel dari bidang text yang tidak memenuhi jumlah atau rasio karakter alfanumerik yang ditentukan. Karena sebagian besar karakter dalam set data arXiv adalah huruf dan angka, komponen ini dapat secara efektif menghapus data yang berisik.
LLM-Length Filter (MaxCompute)-1
Memfilter sampel berdasarkan panjang rata-rata baris di bidang text. Panjang rata-rata dihitung dengan memisahkan sampel menggunakan karakter baris baru \n.
LLM-N-Gram Repetition Filter (MaxCompute)-1
Memfilter sampel berdasarkan laju repetisi N-gram tingkat karakter di bidang text. Proses ini menggunakan jendela geser berukuran N untuk membuat urutan fragmen karakter, di mana setiap fragmen merupakan satu gram. Komponen ini menghitung kemunculan setiap gram. Laju repetisi adalah rasio antara frekuensi total gram yang muncul lebih dari sekali / frekuensi total semua gram.
LLM-Sensitive Words Filter (MaxCompute)-1
Memfilter sampel dari bidang text yang mengandung kata kunci sensitif yang telah ditentukan.
LLM-Length Filter (MaxCompute)-2
Memfilter sampel berdasarkan panjang maksimum baris di bidang text. Panjang maksimum baris ditentukan dengan memisahkan sampel menggunakan karakter baris baru \n.
LLM-Perplexity Filter (MaxCompute)-1
Menghitung perplexity teks di bidang text dan memfilter sampel berdasarkan ambang batas perplexity yang ditentukan.
LLM-Special Characters Ratio Filter (MaxCompute)-1
Menghapus sampel dari bidang text yang tidak memenuhi rasio karakter khusus yang ditentukan.
LLM-Length Filter (MaxCompute)-3
Memfilter sampel berdasarkan panjang bidang text.
LLM-Tokenization (MaxCompute)-1
Menokenisasi teks di bidang text dan menyimpan hasilnya ke kolom baru.
LLM-Length Filter (MaxCompute)-4
Sampel di bidang "text" dipisahkan menjadi daftar kata menggunakan pembatas " " (spasi), lalu difilter berdasarkan panjang daftar tersebut, yaitu jumlah kata.
LLM-N-Gram Repetition Filter (MaxCompute)-2
Memfilter sampel berdasarkan laju repetisi N-gram tingkat kata di bidang text. Semua kata diubah menjadi huruf kecil sebelum perhitungan. Proses ini menggunakan jendela geser berukuran N untuk membuat urutan fragmen kata, di mana setiap fragmen merupakan satu gram. Komponen ini menghitung kemunculan setiap gram. Laju repetisi adalah rasio antara frekuensi total gram yang muncul lebih dari sekali / frekuensi total semua gram.
LLM-MinHash Deduplication (MaxCompute)-1
Menghapus sampel duplikat dan hampir-duplikat menggunakan algoritma MinHash.

Jalankan pipeline.
Setelah pipeline selesai dijalankan, klik kanan komponen Write To Data Table-1, lalu pilih View Data > Output untuk melihat sampel yang telah diproses.

Sumber daya tambahan

Untuk informasi lebih lanjut tentang komponen algoritma LLM, lihat Pemrosesan data LLM (MaxCompute).