全部产品
Search
文档中心

Platform For AI:Pemrosesan Data untuk LLM (Kode Github)

更新时间:Oct 17, 2025

Topik ini menjelaskan cara menggunakan komponen pemrosesan data Large Language Model (LLM) yang disediakan oleh Platform for AI (PAI) untuk membersihkan dan memproses data kode GitHub. Dalam topik ini, komponen pemrosesan data LLM digunakan untuk memproses sejumlah kecil data kode GitHub yang disimpan dalam proyek sumber terbuka RedPajama.

Prasyarat

  • Ruang kerja telah dibuat. Untuk informasi lebih lanjut, lihat Buat ruang kerja.

  • Sumber daya MaxCompute telah terhubung dengan ruang kerja. Untuk informasi lebih lanjut, lihat Kelola ruang kerja.

Set Data

Dalam topik ini, 5.000 catatan data sampel diekstraksi dari data mentah GitHub proyek sumber terbuka RedPajama.

Untuk meningkatkan kualitas data dan efek pelatihan model, Anda dapat melakukan langkah-langkah yang dijelaskan dalam Prosedur untuk membersihkan dan memproses data.

Prosedur

  1. Buka halaman Machine Learning Designer.

    1. Masuk ke Konsol PAI.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama ruang kerja yang ingin dikelola.

    3. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).

  2. Buat alur kerja.

    1. Di halaman Pemodelan Visual (Designer), klik tab Preset Templates.

    2. Di tab Template Preset, klik tab Large Language Model (LLM). Di kartu Data Processing for LLM (Github Code) pada tab Large Language Model (LLM), klik Create.

    3. Di kotak dialog Create Pipeline, konfigurasikan parameter dan klik OK. Anda dapat menggunakan nilai default dari parameter tersebut.

      Atur parameter Pipeline Data Path (Recommended) ke jalur bucket Object Storage Service (OSS). Jalur ini digunakan untuk menyimpan data yang dihasilkan selama waktu proses alur kerja.

    4. Di daftar alur kerja, klik dua kali alur kerja yang telah dibuat untuk membukanya.

    5. Lihat komponen alur kerja di kanvas, seperti yang ditunjukkan pada gambar berikut. Sistem secara otomatis membuat alur kerja berdasarkan template preset.image

      Komponen

      Deskripsi

      LLM-Sensitive Content Mask-1

      Menyembunyikan informasi sensitif. Contoh:

      • Mengganti alamat email dengan [EMAIL].

      • Mengganti nomor telepon dengan [TELEPHONE] atau [MOBILEPHONE].

      • Mengganti nomor kartu identitas dengan IDNUM.

      Contoh berikut menunjukkan data di bidang konten setelah diproses. Alamat email diganti dengan [EMAIL].

      • Sebelum diprosesimage

      • Setelah diprosesimage

      LLM-Clean Special Content-1

      Menghapus URL dari bidang konten.

      Contoh berikut menunjukkan data di bidang konten setelah data diproses. URL dihapus dari bidang konten.

      • Sebelum diprosesimage

      • Setelah diprosesimage

      LLM-Text Normalizer-1

      Menormalisasi teks di bidang konten dalam format Unicode standar.

      Contoh berikut menunjukkan data di bidang konten setelah data diproses. Teks terkait dinormalisasi.

      LLM-Clean Copyright Information-1

      Menghapus informasi hak cipta dari bidang konten.

      Contoh berikut menunjukkan data di bidang konten setelah data diproses. Informasi hak cipta terkait dihapus dari bidang konten.

      • Sebelum diprosesimage

      • Setelah diprosesimage

      LLM-Count Filter-1

      Menghapus data sampel yang tidak memenuhi rasio karakter alfanumerik yang diperlukan dari bidang konten. Sebagian besar karakter dalam dataset kode GitHub adalah huruf dan angka. Komponen ini dapat digunakan untuk menghapus data kotor tertentu.

      Contoh berikut menunjukkan daftar data tertentu yang dihapus. Sebagian besar data kotor dihapus.

      image

      LLM-Length Filter-1

      Menyaring data sampel berdasarkan panjang total, panjang rata-rata, dan panjang baris maksimum dari bidang konten. Baris baru ("\n") digunakan untuk memisahkan data sampel sebelum panjang rata-rata dan panjang baris maksimum data diukur.

      Contoh berikut menunjukkan daftar data tertentu yang dihapus dari dataset. Data kotor yang terlalu pendek atau terlalu panjang dihapus.image

      LLM-N-Gram Repetition Filter-1

      Menyaring data sampel berdasarkan rasio pengulangan N-Gram tingkat karakter dan tingkat kata dari bidang konten.

      Komponen ini menggunakan jendela geser berukuran N untuk membuat urutan segmen karakter atau kata. Setiap segmen disebut gram. Komponen menghitung kemunculan semua gram. Rasio pengulangan dihitung sebagai total jumlah gram yang muncul lebih dari sekali / total jumlah semua gram. Sampel disaring berdasarkan rasio ini.

      Catatan

      Untuk statistik tingkat kata, semua kata dikonversi menjadi huruf kecil sebelum rasio pengulangan dihitung.

      LLM-Length Filter-2

      Memisahkan data sampel menjadi daftar kata berdasarkan spasi dan menyaring data sampel berdasarkan panjang daftar. Data sampel disaring berdasarkan jumlah kata.

      LLM-MinHash Deduplicator (MaxCompute)-1

      Menghapus teks serupa.

  3. Klik image di bagian atas kanvas untuk menjalankan alur kerja.

  4. Setelah alur kerja dijalankan sesuai harapan, klik kanan node Write Table-1 dan pilih View Data > Output.

    Data sampel output adalah data sampel yang diperoleh setelah data difilter dan diproses oleh semua komponen pemrosesan yang dijelaskan dalam tabel sebelumnya.image