Gunakan komponen LLM-LaTeX Perluas Makro (MaxCompute) dari Platform for AI (PAI) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Jika sebuah makro tidak memiliki parameter dan nama makro hanya terdiri dari huruf dan angka, komponen ini akan mengganti nama makro dengan definisi makro untuk ekspansi inline.
Sumber daya komputasi yang didukung
Deskripsi algoritma
Komponen LLM-LaTeX Perluas Makro (MaxCompute) melakukan ekspansi inline pada makro yang sesuai dengan ekspresi reguler berikut:
Item | Makro tanpa parameter yang didefinisikan menggunakan \newcommand | Makro tanpa parameter yang didefinisikan menggunakan \def |
Ekspresi reguler |
|
|
Makro yang cocok |
|
|
Catatan | macro_name hanya boleh berisi huruf dan angka, sedangkan macro_value dapat berisi karakter apa pun. | |
Jika makro cocok dengan ekspresi reguler di atas, komponen ini mengganti nilai macro_name dengan nilai macro_value. Contoh:
Sebelum diproses
| Setelah diproses
|
Konfigurasikan komponen
Untuk mengonfigurasi komponen di konsol PAI, ikuti langkah-langkah berikut: Masuk ke konsol PAI, buka halaman Pemodelan Visual (Designer), lalu buka pipeline. Di halaman pipeline, seret komponen LLM-LaTeX Expand Macro (MaxCompute) ke kanvas dan konfigurasikan parameter di panel sebelah kanan. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Pengaturan Bidang | Pilih Kolom Target | Kolom yang ingin diproses. Anda dapat memilih beberapa kolom. |
Daur hidup tabel keluaran | Nilainya harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Tabel sementara yang dihasilkan oleh komponen ini akan didaur ulang setelah 28 hari. | |
Tuning | Jumlah CPU per instance tugas map | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100. |
Ukuran memori per instance tugas map | Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB. | |
Ukuran maksimum data masukan untuk map | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB. Anda dapat menggunakan parameter ini untuk mengontrol ukuran data masukan. |

