Algoritma pemrosesan data LLM memungkinkan Anda mengedit, mentransformasi, memfilter, dan menghapus duplikat sampel data. Dengan menggabungkan algoritma-algoritma tersebut, Anda dapat menghasilkan data berkualitas tinggi untuk pelatihan LLM selanjutnya. Artikel ini menggunakan set data kecil dari proyek open-source Alpaca-CoT untuk menunjukkan cara menggunakan komponen pemrosesan data model bahasa besar PAI guna membersihkan dan memproses data SFT. Komponen DLC memanfaatkan framework terdistribusi Ray untuk pemrosesan data skala besar dan dilengkapi agregasi cerdas guna meningkatkan efisiensi, mengoptimalkan penggunaan resource, serta mengurangi operasi penyimpanan yang tidak perlu. Untuk petunjuk lengkap, lihat Kelompokkan komponen pemrosesan data model besar berdasarkan agregasi.
Dataset
Template preset "LLM Data Processing-Alpaca-CoT (SFT data)-DLC component" di Designer menggunakan dataset berisi 5.000 sampel dari proyek open-source Alpaca-CoT.
Buat dan jalankan alur kerja
Buka halaman Designer.
Masuk ke Konsol PAI.
Di pojok kiri atas, pilih Wilayah.
Di panel navigasi sebelah kiri, klik Workspaces, lalu klik nama ruang kerja Anda.
Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).
Buat alur kerja.
Di tab Preset Templates, pilih Business Area > LLM, lalu klik Create pada kartu template LLM Data Processing-Alpaca-CoT (SFT data)-DLC component.

Konfigurasikan parameter alur kerja (atau pertahankan pengaturan default), lalu klik Confirm.
Pada daftar alur kerja, pilih alur kerja yang telah Anda buat dan klik Open.
Deskripsi alur kerja:

Komponen algoritma utama dalam alur kerja:
LLM-MD5 Deduplication (DLC)-1
Menghitung nilai hash untuk bidang "text" dan menggunakannya untuk menghapus teks duplikat, menyisakan hanya satu instans per nilai hash unik.
LLM-Count Filter (DLC)-1
Menghapus sampel pada bidang "text" yang tidak memenuhi rasio digit dan huruf yang dikonfigurasi. Pada data SFT, sebagian besar karakter berupa huruf dan digit, sehingga komponen ini membantu menghapus beberapa data kotor.
LLM-N-Gram Repetition Ratio Filter (DLC)-1
Komponen ini menggeser jendela berukuran N pada teks untuk membuat urutan segmen sepanjang N, yang dikenal sebagai gram. Komponen ini kemudian menghitung kemunculan semua gram dan memfilter sampel berdasarkan rasio
(total kemunculan gram yang muncul lebih dari sekali) / (total kemunculan semua gram).LLM-Sensitive Word Filter (DLC)-1
Memfilter sampel pada bidang "text" yang mengandung kata dari daftar preset kata sensitif.
LLM-Length Filter (DLC)-1
Memfilter sampel berdasarkan panjang bidang "text" dan panjang baris maksimum. Panjang baris maksimum adalah baris terpanjang dalam sampel, dengan baris dipisahkan oleh karakter baris baru
\n.LLM-SimHash Similarity Deduplication (DLC)-1
Menghapus sampel yang mirip berdasarkan nilai window_size, num_blocks, dan hamming_distance yang dikonfigurasi.
Jalankan alur kerja.
Saat alur kerja selesai, klik kanan komponen LLM-SimHash Similarity Deduplication (DLC)-1 dan pilih View Data > Output Data (OSS) untuk melihat file sampel yang telah diproses.

Referensi terkait
Lihat Pemrosesan data LLM (DLC) untuk deskripsi lengkap komponen algoritma LLM.