全部产品
Search
文档中心

Platform For AI:Pemrosesan data untuk LLM (Kode GitHub) - Komponen DLC

更新时间:Oct 17, 2025

Algoritma pemrosesan data model bahasa besar (LLM) memungkinkan Anda mengedit dan mentransformasi sampel data, menyaring sampel berkualitas rendah, serta mengidentifikasi dan menghapus sampel duplikat. Anda dapat menggabungkan berbagai algoritma untuk menyaring data dan menghasilkan teks yang sesuai dengan kebutuhan Anda. Proses ini memberikan data berkualitas tinggi untuk pelatihan LLM selanjutnya. Topik ini menggunakan set data kecil dari proyek open-source RedPajama-Data sebagai contoh untuk menunjukkan cara menggunakan komponen pemrosesan data LLM yang disediakan oleh PAI dalam membersihkan dan memproses data kode GitHub.

Komponen DLC mendukung pemrosesan data skala besar menggunakan kerangka kerja terdistribusi Ray dan menampilkan agregasi cerdas. Hal ini memungkinkan pemrosesan data yang efisien serta pemanfaatan sumber daya yang optimal, sekaligus mengurangi operasi penyimpanan data yang tidak perlu. Untuk informasi lebih lanjut, lihat Kelompok dan Agregasi Komponen Pemrosesan Data Model Besar.

Deskripsi Dataset

Dataset yang digunakan dalam template preset "Pemrosesan Data untuk LLM (Kode GitHub) - Komponen DLC" di Machine Learning Designer terdiri dari 5.000 sampel yang diekstraksi dari data mentah proyek open-source RedPajama-Data.

Buat dan jalankan alur kerja

  1. Buka halaman Machine Learning Designer.

    1. Masuk ke konsol PAI.

    2. Di pojok kiri atas, pilih Wilayah.

    3. Di panel navigasi kiri, pilih Workspace Management, lalu klik nama ruang kerja target.

    4. Di panel navigasi kiri, pilih Model Development And Training > Machine Learning Designer untuk membuka halaman Machine Learning Designer.

  2. Buat alur kerja.

    1. Di tab Preset Templates, pilih Business Area > LLM. Pada kartu template Data Processing For LLM (GitHub Code) - DLC Component, klik Create.

      image

    2. Konfigurasikan parameter alur kerja atau pertahankan pengaturan default, lalu klik OK.

    3. Dalam daftar alur kerja, pilih alur kerja yang telah dibuat dan klik Enter Workflow.

  3. Deskripsi alur kerja:

    image

    Deskripsi komponen algoritma utama dalam alur kerja adalah sebagai berikut:

    • LLM-Sensitive Content Mask (DLC)-1

      Menyamarkan informasi sensitif di bidang "content". Contohnya:

      • Mengganti alamat email dengan [EMAIL].

      • Mengganti nomor telepon dengan [TELEPHONE] atau [MOBILEPHONE].

      • Mengganti nomor KTP dengan IDNUM.

    • LLM-Clean Special Content (DLC)-1

      Menghapus tautan URL dari bidang "content".

    • LLM-Text Normalizer (DLC)-1

      Menjalankan normalisasi Unicode pada teks di bidang "content".

    • LLM-Clean Copyright Information (DLC)-1

      Menghapus informasi hak cipta dari bidang "content".

    • LLM-Count Filter (DLC)-1

      Menghapus sampel dari bidang "content" yang tidak memenuhi rasio karakter alfanumerik tertentu atau rasio karakter alfabetik terhadap token teks. Sebagian besar karakter dalam dataset kode GitHub adalah huruf dan angka. Komponen ini dapat menghapus beberapa data kotor.

    • LLM-Length Filter (DLC)-1

      Menyaring sampel teks di bidang konten berdasarkan panjang teks, panjang rata-rata, dan panjang baris maksimum. Panjang rata-rata dan maksimum dihitung dari sampel yang dipisahkan oleh karakter line feed \n.

    • LLM-N-Gram Repetition Filter (DLC)-1

      Menyaring sampel di bidang 'content' berdasarkan rasio repetisi N-gram tingkat karakter dan tingkat kata. Untuk rasio tingkat kata, semua kata dikonversi menjadi huruf kecil sebelum perhitungan repetisi. Komponen menerapkan jendela geser berukuran N pada teks untuk membuat urutan segmen dengan panjang N. Setiap segmen disebut gram. Komponen menghitung kemunculan semua gram. Akhirnya, sampel disaring berdasarkan rasio repetisi, yang dihitung sebagai: (Total frekuensi gram yang muncul lebih dari sekali) / (Total frekuensi semua gram).

    • LLM-Length Filter (DLC)-2

      Menyaring sampel berdasarkan panjang bidang "content".

    • LLM-Document Deduplicator (DLC)-1

      Menghapus sampel serupa berdasarkan nilai yang dikonfigurasi untuk window_size, num_blocks, dan hamming_distance.

  4. Jalankan alur kerja.

    Setelah alur kerja selesai dijalankan, klik kanan komponen LLM-Document Deduplicator (DLC)-1 dan pilih View Data > Output Data (OSS) untuk melihat file sampel yang diproses oleh komponen sebelumnya.

    image

Referensi