Algoritma pemrosesan data model bahasa besar (LLM) memungkinkan Anda mengedit dan mentransformasi sampel data, menyaring sampel berkualitas rendah, serta menghapus duplikat. Dengan menggabungkan berbagai algoritma, Anda dapat menyaring data dan menghasilkan teks yang sesuai dengan kebutuhan Anda, memberikan data berkualitas tinggi untuk pelatihan LLM selanjutnya. Topik ini menggunakan sejumlah kecil data dari proyek open source Alpaca-CoT sebagai contoh untuk menunjukkan cara menggunakan komponen pemrosesan data LLM di PAI dalam membersihkan dan memproses data supervised fine-tuning (SFT).
Deskripsi Dataset
Template preset Pemrosesan Data LLM-Alpaca-Cot (Data SFT) di Machine Learning Designer menggunakan dataset 5.000 sampel yang diekstraksi dari data mentah proyek open source Alpaca-CoT.
Buat dan jalankan pipeline
Buka halaman Machine Learning Designer.
Masuk ke Konsol PAI.
Di pojok kiri atas, pilih Wilayah.
Di panel navigasi sebelah kiri, klik Workspace Management, lalu pilih nama ruang kerja target.
Di panel navigasi sebelah kiri, pilih Model Development And Training > Machine Learning Designer.
Buat sebuah pipeline.
Di tab Preset Templates, pilih Business Realm > LLM, lalu klik Create pada kartu template LLM Data Processing-Alpaca-Cot (SFT Data).

Konfigurasikan parameter alur kerja atau gunakan pengaturan default, lalu klik OK.
Dalam daftar alur kerja, pilih alur kerja yang telah dibuat dan klik Enter Pipeline.
Deskripsi alur kerja:

Tabel berikut menjelaskan komponen algoritma utama dalam alur kerja:
LLM-MD5 Deduplicator (MaxCompute)-1
Menghitung nilai hash dari teks di bidang "text" dan menghapus teks duplikat. Hanya satu instance teks dengan nilai hash yang sama yang dipertahankan.
LLM-Count Filter (MaxCompute)-1
Menghapus sampel dari bidang "text" yang tidak memenuhi jumlah atau rasio karakter alfanumerik yang diperlukan. Sebagian besar karakter dalam dataset SFT adalah huruf dan angka. Komponen ini dapat menghapus beberapa data kotor.
LLM-N-Gram Repetition Filter (MaxCompute)-1
Menyaring sampel berdasarkan laju pengulangan N-gram tingkat karakter dari bidang "text". Komponen ini menggunakan jendela geser berukuran N untuk membuat urutan segmen N-karakter dari teks. Setiap segmen disebut gram. Komponen ini menghitung kemunculan semua gram. Akhirnya, ia menghitung rasio
total frekuensi gram yang muncul lebih dari sekali / total frekuensi semua gramdan menggunakan rasio ini untuk menyaring sampel.LLM-Sensitive Word Filter (MaxCompute)-1
Menggunakan file kata sensitif bawaan sistem untuk menyaring sampel di bidang "text" yang mengandung kata sensitif.
LLM-Length Filter (MaxCompute)-1
Menyaring sampel berdasarkan panjang bidang "text" dan panjang baris maksimum. Panjang baris maksimum ditentukan dengan membagi sampel berdasarkan karakter line feed (
\n).LLM-MinHash Deduplicator (MaxCompute)-1
Menghapus sampel serupa berdasarkan algoritma MinHash.
Jalankan pipeline.
Setelah proses selesai, klik kanan komponen Write To Table-1 dan pilih View Data > Outputs untuk melihat sampel yang telah diproses.

Referensi
Untuk informasi lebih lanjut tentang komponen algoritma LLM, lihat Pemrosesan Data LLM (MaxCompute).