全部产品
Search
文档中心

Platform For AI:Pemrosesan data LLM - Alpaca-CoT (data SFT) - Komponen DLC

更新时间:Oct 17, 2025

Algoritma pemrosesan data LLM memungkinkan Anda mengedit dan mentransformasi sampel data, menyaring sampel berkualitas rendah, serta mengidentifikasi dan menghapus sampel duplikat. Anda dapat menggabungkan berbagai algoritma sesuai kebutuhan untuk menyaring data, menghasilkan teks yang sesuai dengan kebutuhan Anda, dan menyediakan data berkualitas tinggi untuk pelatihan LLM selanjutnya. Topik ini menggunakan sejumlah kecil data dari proyek open source Alpaca-CoT sebagai contoh. Ini menunjukkan cara menggunakan komponen pemrosesan data model besar PAI untuk membersihkan dan memproses data SFT. Komponen DLC mendukung kerangka kerja Ray terdistribusi untuk pemrosesan data skala besar. Komponen ini juga mendukung fitur agregasi cerdas, yang memungkinkan pemrosesan data yang efisien, pemanfaatan sumber daya optimal, serta mengurangi operasi penyimpanan data yang tidak perlu. Untuk informasi lebih lanjut, lihat Kelompokkan komponen pemrosesan data model besar berdasarkan agregasi.

Deskripsi Dataset

Template preset 'Pemrosesan data LLM - Alpaca-CoT (data SFT) - Komponen DLC' di Machine Learning Designer menggunakan dataset 5.000 sampel. Sampel-sampel ini diekstraksi dari data mentah proyek open source Alpaca-CoT.

Buat dan jalankan alur kerja

  1. Buka halaman Machine Learning Designer.

    1. Masuk ke Konsol PAI.

    2. Di pojok kiri atas halaman, pilih Wilayah sesuai kebutuhan.

    3. Di panel navigasi di sebelah kiri, pilih Workspace List, lalu klik nama ruang kerja target.

    4. Di panel navigasi di sebelah kiri, pilih Model Development And Training > Visualized Modeling (Designer) untuk masuk ke halaman Designer.

  2. Buat alur kerja.

    1. Di tab Preset Templates, pilih Business Area > LLM, lalu klik Create pada kartu template LLM Data Processing-Alpaca-CoT (SFT Data)-DLC Component.

      image

    2. Konfigurasikan parameter alur kerja (atau gunakan default), lalu klik OK.

    3. Dalam daftar alur kerja, pilih alur kerja yang telah dibuat, lalu klik Enter Workflow.

  3. Deskripsi alur kerja:

    image

    Deskripsi komponen algoritma utama dalam alur kerja:

    • LLM-MD5 Deduplikasi (DLC)-1

      Menghitung nilai hash untuk teks di bidang `text` dan menghapus teks duplikat. Hanya satu instance teks dengan nilai hash yang sama yang dipertahankan.

    • LLM-Count Filter (DLC)-1

      Menghapus sampel dari bidang `text` yang tidak memenuhi rasio digit dan huruf yang ditentukan. Dalam dataset SFT, sebagian besar karakter adalah huruf dan angka. Komponen ini dapat menghapus beberapa data kotor.

    • LLM-Filter Rasio Pengulangan N-Gram Karakter (DLC)-1

      Menyaring sampel berdasarkan rasio pengulangan N-gram tingkat karakter di bidang `text`. Komponen menerapkan jendela geser berukuran N pada karakter teks, membuat urutan segmen dengan panjang N. Setiap segmen adalah gram. Komponen menghitung kemunculan setiap gram. Akhirnya, komponen menyaring sampel berdasarkan rasio pengulangan, yang dihitung sebagai: (total frekuensi gram yang muncul lebih dari sekali) / (total frekuensi semua gram).

    • LLM-Filter Kata Sensitif (DLC)-1

      Menggunakan file kata sensitif preset sistem untuk menyaring sampel dari bidang `text` yang mengandung kata sensitif.

    • LLM-Length Filter (DLC)-1

      Menyaring sampel berdasarkan panjang bidang `text` dan panjang baris maksimum. Panjang baris maksimum ditentukan dengan membagi sampel pada karakter line feed (\n).

    • LLM-Deduplikasi Kemiripan SimHash (DLC)-1

      Menghapus sampel serupa berdasarkan nilai `window_size`, `num_blocks`, dan `hamming_distance` yang dikonfigurasi.

  4. Jalankan alur kerja.

    Setelah proses selesai, klik kanan komponen LLM-SimHash Similarity Deduplication (DLC)-1 dan pilih View Data > Output Data (OSS) untuk melihat file sampel yang diproses oleh semua komponen sebelumnya.

    image

Referensi