Gunakan komponen LLM-LaTeX Hapus Bibliografi (MaxCompute) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus bagian bibliografi di akhir dokumen LaTeX.
Sumber daya komputasi yang didukung
Algoritma
Komponen LLM-LaTeX Hapus Bibliografi (MaxCompute) mengekstrak semua string yang sesuai dengan ekspresi reguler r'(\\appendix|\\begin\{references\}|\\begin\{REFERENCES\}|\\begin\{thebibliography\}|\\bibliography\{.*\}).*$' dan menggantinya dengan string kosong. Pola kecocokan ganda dipisahkan oleh tanda batang vertikal (|).
Contoh:
Sebelum pemrosesan
| Setelah pemrosesan
|
Konfigurasikan komponen
Konfigurasikan parameter komponen LLM-LaTeX Remove Bibliography (MaxCompute) pada halaman pipeline Machine Learning Designer di konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.
Tab | Parameter | Deskripsi |
Pengaturan Kolom | Pilih Kolom Target | Kolom-kolom yang ingin diproses. Anda dapat memilih beberapa kolom. |
Daur Hidup Tabel Keluaran | Nilai harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | |
Tuning | Jumlah CPU per Instance Tugas Map | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100. |
Ukuran Memori per Instance Tugas Map | Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB. | |
Ukuran Maksimum Data Masukan untuk Sebuah Map | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB. Gunakan parameter ini untuk mengontrol ukuran data masukan. |

