Pemrosesan Data LLM: Alpaca-CoT - Platform For AI - Alibaba Cloud Documentation Center

Komponen algoritma pemrosesan data LLM memungkinkan Anda mengedit dan mentransformasi sampel data, menyaring sampel berkualitas rendah, serta menghapus duplikat. Anda dapat menggabungkan berbagai komponen sesuai kebutuhan bisnis untuk menyaring data dan menghasilkan teks yang sesuai dengan kebutuhan Anda, sehingga menyediakan data berkualitas tinggi untuk pelatihan LLM. Topik ini menjelaskan cara menggunakan komponen pemrosesan data LLM yang disediakan oleh PAI untuk membersihkan dan memproses data SFT dengan menggunakan sejumlah kecil data dari proyek open-source Alpaca-CoT.

Dataset

Templat preset "LLM Data Processing-Alpaca-Cot (SFT Data)" di Visualized Modeling (Designer) menggunakan dataset berisi 5.000 sampel yang diekstraksi dari data mentah proyek open-source Alpaca-CoT.

Buat dan jalankan pipeline

Buka halaman Visualized Modeling (Designer).
1. Login ke PAI console.
2. Di pojok kiri atas, pilih wilayah sesuai kebutuhan Anda.
3. Di panel navigasi sebelah kiri, klik Workspaces, lalu klik nama ruang kerja Anda.
4. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).
Buat pipeline.
1. Di tab Preset Templates, pilih Business Area > LLM, lalu klik Create pada kartu templat LLM Data Processing-Alpaca-Cot (SFT Data).
2. Konfigurasikan parameter pipeline atau gunakan pengaturan default, lalu klik Confirm.
3. Di daftar pipeline, temukan pipeline yang telah Anda buat dan klik Open.

Ikhtisar pipeline:

Komponen algoritma utama dalam pipeline:

LLM-MD5 Deduplication (MaxCompute)-1

Menghitung hash dari teks pada bidang text dan menghapus teks duplikat. Hanya satu instans teks dengan hash yang sama yang dipertahankan.
LLM-Count Filter (MaxCompute)-1

Menghapus sampel dari bidang text yang tidak memenuhi jumlah atau persentase angka dan huruf tertentu. Sebagian besar karakter dalam dataset SFT adalah huruf dan angka. Komponen ini membantu menghapus beberapa data kotor.
LLM-N-Gram Repetition Ratio Filter (MaxCompute)-1

Menyaring sampel berdasarkan rasio pengulangan n-gram tingkat karakter pada bidang text. Teks diproses menggunakan jendela geser berukuran N untuk membuat urutan fragmen karakter sepanjang N yang disebut gram. Komponen ini kemudian menghitung kemunculan setiap gram. Sampel disaring berdasarkan rasio pengulangan, yang dihitung sebagai: total kemunculan gram yang muncul lebih dari sekali / total kemunculan semua gram.
LLM-Sensitive Word Filter (MaxCompute)-1

Menggunakan file kata sensitif yang disediakan sistem untuk menyaring sampel pada bidang text yang mengandung kata sensitif.
LLM-Length Filter (MaxCompute)-1

Menyaring sampel berdasarkan panjang bidang text dan panjang baris maksimum. Panjang baris maksimum ditentukan dengan memisahkan sampel berdasarkan karakter line feed \n.
LLM-MinHash Similarity Deduplication (MaxCompute)-1

Menggunakan algoritma MinHash untuk menghapus sampel yang mirip.

Jalankan pipeline.

Setelah pipeline selesai berjalan, klik kanan komponen Write Table-1 dan pilih View Data > Output untuk melihat sampel yang telah diproses oleh komponen sebelumnya.

Referensi

Untuk informasi selengkapnya tentang komponen algoritma LLM, lihat LLM Data Processing (MaxCompute).