Gunakan komponen LLM-LaTeX Hapus Komentar (MaxCompute) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus komentar dari teks LaTeX.
Sumber daya komputasi yang didukung
Algoritma
Komponen LLM-LaTeX Hapus Komentar (MaxCompute) menghapus string yang sesuai dengan ekspresi reguler tertentu. Tabel berikut menjelaskan ekspresi reguler tersebut.
Jenis komentar | Ekspresi reguler |
Baris komentar |
|
Komentar di dalam baris |
|
Komponen ini mengekstrak semua string yang cocok dengan ekspresi reguler dan menggantinya dengan string kosong. Contoh:
Sebelum diproses
| Setelah diproses
|
Konfigurasi komponen
Konfigurasikan parameter komponen LLM-LaTeX Remove Comments (MaxCompute) pada halaman pipeline Machine Learning Designer di konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Pengaturan Kolom | Pilih Kolom Target | Kolom yang akan diproses. Anda dapat memilih beberapa kolom. |
Hapus Semua Baris Komentar | Tentukan apakah akan menghapus semua baris komentar. | |
Hapus Semua Komentar di Dalam Baris | Tentukan apakah akan menghapus semua komentar di dalam baris. | |
Daur Hidup Tabel Keluaran | Nilai harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | |
Tuning | Jumlah CPU per Instance Tugas Map | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100. |
Ukuran Memori per Instance Tugas Map | Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB. | |
Ukuran Maksimum Data Masukan untuk Sebuah Map | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB. Gunakan parameter ini untuk mengontrol ukuran data masukan. |

