Topik ini menjelaskan cara menggunakan komponen pemrosesan data Large Language Model (LLM) yang disediakan oleh Platform for AI (PAI) untuk membersihkan dan memproses data kode GitHub. Dalam topik ini, komponen pemrosesan data LLM digunakan untuk memproses sejumlah kecil data kode GitHub yang disimpan dalam proyek sumber terbuka RedPajama.
Prasyarat
Ruang kerja telah dibuat. Untuk informasi lebih lanjut, lihat Buat ruang kerja.
Sumber daya MaxCompute telah terhubung dengan ruang kerja. Untuk informasi lebih lanjut, lihat Kelola ruang kerja.
Set Data
Dalam topik ini, 5.000 catatan data sampel diekstraksi dari data mentah GitHub proyek sumber terbuka RedPajama.
Untuk meningkatkan kualitas data dan efek pelatihan model, Anda dapat melakukan langkah-langkah yang dijelaskan dalam Prosedur untuk membersihkan dan memproses data.
Prosedur
Buka halaman Machine Learning Designer.
Masuk ke Konsol PAI.
Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama ruang kerja yang ingin dikelola.
Di panel navigasi sebelah kiri, pilih .
Buat alur kerja.
Di halaman Pemodelan Visual (Designer), klik tab Preset Templates.
Di tab Template Preset, klik tab Large Language Model (LLM). Di kartu Data Processing for LLM (Github Code) pada tab Large Language Model (LLM), klik Create.
Di kotak dialog Create Pipeline, konfigurasikan parameter dan klik OK. Anda dapat menggunakan nilai default dari parameter tersebut.
Atur parameter Pipeline Data Path (Recommended) ke jalur bucket Object Storage Service (OSS). Jalur ini digunakan untuk menyimpan data yang dihasilkan selama waktu proses alur kerja.
Di daftar alur kerja, klik dua kali alur kerja yang telah dibuat untuk membukanya.
Lihat komponen alur kerja di kanvas, seperti yang ditunjukkan pada gambar berikut. Sistem secara otomatis membuat alur kerja berdasarkan template preset.

Komponen
Deskripsi
LLM-Sensitive Content Mask-1
Menyembunyikan informasi sensitif. Contoh:
Mengganti alamat email dengan
[EMAIL].Mengganti nomor telepon dengan
[TELEPHONE]atau[MOBILEPHONE].Mengganti nomor kartu identitas dengan
IDNUM.
Contoh berikut menunjukkan data di bidang konten setelah diproses. Alamat email diganti dengan
[EMAIL].Sebelum diproses

Setelah diproses

LLM-Clean Special Content-1
Menghapus URL dari bidang konten.
Contoh berikut menunjukkan data di bidang konten setelah data diproses. URL dihapus dari bidang konten.
Sebelum diproses

Setelah diproses

LLM-Text Normalizer-1
Menormalisasi teks di bidang konten dalam format Unicode standar.
Contoh berikut menunjukkan data di bidang konten setelah data diproses. Teks terkait dinormalisasi.
LLM-Clean Copyright Information-1
Menghapus informasi hak cipta dari bidang konten.
Contoh berikut menunjukkan data di bidang konten setelah data diproses. Informasi hak cipta terkait dihapus dari bidang konten.
Sebelum diproses

Setelah diproses

LLM-Count Filter-1
Menghapus data sampel yang tidak memenuhi rasio karakter alfanumerik yang diperlukan dari bidang konten. Sebagian besar karakter dalam dataset kode GitHub adalah huruf dan angka. Komponen ini dapat digunakan untuk menghapus data kotor tertentu.
Contoh berikut menunjukkan daftar data tertentu yang dihapus. Sebagian besar data kotor dihapus.

LLM-Length Filter-1
Menyaring data sampel berdasarkan panjang total, panjang rata-rata, dan panjang baris maksimum dari bidang konten. Baris baru ("\n") digunakan untuk memisahkan data sampel sebelum panjang rata-rata dan panjang baris maksimum data diukur.
Contoh berikut menunjukkan daftar data tertentu yang dihapus dari dataset. Data kotor yang terlalu pendek atau terlalu panjang dihapus.
LLM-N-Gram Repetition Filter-1
Menyaring data sampel berdasarkan rasio pengulangan N-Gram tingkat karakter dan tingkat kata dari bidang konten.
Komponen ini menggunakan jendela geser berukuran N untuk membuat urutan segmen karakter atau kata. Setiap segmen disebut gram. Komponen menghitung kemunculan semua gram. Rasio pengulangan dihitung sebagai
total jumlah gram yang muncul lebih dari sekali / total jumlah semua gram. Sampel disaring berdasarkan rasio ini.CatatanUntuk statistik tingkat kata, semua kata dikonversi menjadi huruf kecil sebelum rasio pengulangan dihitung.
LLM-Length Filter-2
Memisahkan data sampel menjadi daftar kata berdasarkan spasi dan menyaring data sampel berdasarkan panjang daftar. Data sampel disaring berdasarkan jumlah kata.
LLM-MinHash Deduplicator (MaxCompute)-1
Menghapus teks serupa.
Klik
di bagian atas kanvas untuk menjalankan alur kerja.Setelah alur kerja dijalankan sesuai harapan, klik kanan node Write Table-1 dan pilih .
Data sampel output adalah data sampel yang diperoleh setelah data difilter dan diproses oleh semua komponen pemrosesan yang dijelaskan dalam tabel sebelumnya.
