Topik ini menggunakan sampel data kecil dari proyek open source RedPajama di GitHub untuk menunjukkan cara menggunakan komponen pemrosesan data untuk model bahasa besar (LLM) di PAI guna membersihkan dan memproses data kode GitHub.
Prasyarat
-
Anda telah membuat ruang kerja. Untuk informasi selengkapnya, lihat Create and manage a workspace.
-
Anda telah mengaitkan sumber daya MaxCompute dengan ruang kerja. Untuk informasi selengkapnya, lihat Manage a workspace.
Dataset
Demonstrasi ini menggunakan 5.000 sampel data yang diekstraksi dari data mentah GitHub dari proyek open source RedPajama.
Anda dapat membersihkan dan memproses data tersebut dengan mengikuti langkah-langkah pada bagian Alur kerja pemrosesan data. Proses ini meningkatkan kualitas data dan performa pelatihan model.
Alur kerja pemrosesan data
-
Buka halaman Machine Learning Designer.
-
Masuk ke PAI console.
-
Di panel navigasi sebelah kiri, klik Workspaces. Pada halaman Workspaces, klik nama ruang kerja yang ingin Anda kelola.
-
Di panel navigasi sebelah kiri, pilih .
-
-
Buat alur kerja.
-
Pada halaman Machine Learning Designer, klik tab Preset Templates.
-
Pada tab LLM, di bagian LLM Data Processing - GitHub Code, klik Create.
-
Pada kotak dialog Create Workflow, konfigurasikan parameter dan klik OK. Anda dapat menggunakan nilai default.
Parameter Workflow Data Storage menentukan path Bucket OSS yang digunakan untuk menyimpan data yang dihasilkan saat alur kerja dijalankan.
-
Pada daftar alur kerja, klik ganda alur kerja target untuk membukanya.
-
Sistem secara otomatis membangun alur kerja berdasarkan template preset, seperti yang ditunjukkan pada gambar berikut.

Component
Description
LLM-MaskSensitiveInfo-1
Menyamarkan informasi sensitif. Contohnya:
-
Mengganti alamat email dengan
[EMAIL]. -
Mengganti nomor telepon dengan
[TELEPHONE]atau[MOBILEPHONE]. -
Mengganti nomor KTP dengan
IDNUM.
Contoh berikut menunjukkan data pada bidang content setelah diproses. Alamat email diganti dengan
[EMAIL].-
Sebelum

-
Setelah diproses:

LLM-RemoveSpecialContent-1
Menghapus URL dari bidang content.
Contoh berikut menunjukkan data pada bidang content setelah diproses. URL dihapus.
-
Sebelum

-
Setelah

LLM-NormalizeText-1
Menerapkan normalisasi Unicode pada teks di bidang content.
Contoh berikut menunjukkan data pada bidang content setelah diproses. Teks dinormalisasi.
LLM-RemoveCopyright-1
Menghapus informasi hak cipta dari bidang content.
Contoh berikut menunjukkan data pada bidang content setelah diproses. Informasi hak cipta dihapus.
-
Sebelum

-
Hasil pemrosesan

LLM-CountFilter-1
Menghapus sampel dari bidang content yang tidak memenuhi rasio tertentu antara digit dan huruf. Sebagian besar karakter dalam dataset kode GitHub terdiri atas huruf dan digit. Komponen ini dapat menghapus beberapa data kotor.
Daftar berikut menunjukkan beberapa data yang dihapus. Banyak data kotor berhasil dihapus.

LLM-LengthFilter-1
Menyaring sampel berdasarkan panjang total, panjang rata-rata baris, dan panjang maksimum baris pada bidang content. Panjang rata-rata dan maksimum baris dihitung dengan memisahkan sampel berdasarkan karakter line feed ("\n").
Daftar berikut menunjukkan beberapa dataset yang dihapus. Banyak data kode kotor yang terlalu pendek atau terlalu panjang berhasil dihapus.

LLM-FilterByNGramRepetitionRatio-1
Menyaring sampel berdasarkan rasio pengulangan N-gram tingkat karakter dan tingkat kata pada bidang content.
Komponen ini memproses teks menggunakan jendela geser berukuran N pada tingkat karakter atau kata. Hal ini menghasilkan urutan fragmen sepanjang N, yang disebut gram. Komponen ini menghitung kemunculan setiap gram. Rasio pengulangan dihitung sebagai
(jumlah total gram yang muncul lebih dari sekali) / (jumlah total semua gram). Sampel disaring berdasarkan rasio ini.CatatanUntuk statistik tingkat kata, semua kata diubah menjadi huruf kecil sebelum rasio pengulangan dihitung.
LLM-LengthFilter-2
Komponen ini memisahkan sampel menjadi daftar kata berdasarkan spasi. Kemudian, komponen ini menyaring sampel berdasarkan panjang daftar yang dihasilkan. Dengan demikian, komponen ini secara efektif menyaring sampel berdasarkan jumlah kata.
LLM-DeduplicateByMinHash-1
Komponen ini menghapus teks yang mirip.
-
-
-
Klik tombol Run
di atas kanvas untuk menjalankan alur kerja. -
Setelah alur kerja berhasil dijalankan, klik kanan komponen Write to Data Table-1 dan pilih dari menu pintasan.
Output menampilkan sampel data yang telah difilter dan diproses oleh semua komponen sebelumnya.
