Gunakan komponen LLM-Text Normalizer (DLC) dari Platform for AI (PAI) untuk melakukan normalisasi teks Unicode atau konversi bahasa dari Tionghoa tradisional ke Tionghoa sederhana. File data input Object Storage Service (OSS) harus dalam format JSON Lines dengan setiap baris berupa objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk detail lebih lanjut, lihat Contoh.
Sumber daya komputasi yang didukung
Deskripsi algoritma
Komponen LLM-Text Normalizer (DLC) mendukung fitur-fitur berikut:
Normalisasi teks Unicode menggunakan metode Normalization Form Compatibility Composition (NFKC).
ftfy.fix_text(text, normalization='NFKC')Konversi bahasa dari Tionghoa tradisional ke Tionghoa sederhana menggunakan paket opencc.
Contoh:
Sebelum diproses
| Setelah diproses
|
Konfigurasikan komponen
Pada halaman pipeline Machine Learning Designer, konfigurasikan parameter komponen LLM-Text Normalizer (DLC).
Tab | Parameter | Diperlukan | Deskripsi | Nilai default | |
Pengaturan Bidang | Bidang Proses Target | Ya | Nama bidang yang ingin Anda proses. | Tidak tersedia | |
Apakah akan menormalkan teks Unicode (bentuk NFKC) | Tidak | Menentukan apakah akan menormalkan teks Unicode menggunakan metode NFKC. | Dipilih | ||
Apakah akan mengonversi Tionghoa tradisional ke Tionghoa sederhana | Tidak | Menentukan apakah akan mengonversi Tionghoa tradisional ke Tionghoa sederhana. | Dipilih | ||
Direktori OSS untuk Menyimpan OutputData | Tidak | Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan. | Tidak tersedia | ||
Pengaturan | Jumlah Proses | Tidak | Jumlah proses. | 8 | |
Pilih Grup Sumber Daya | Grup Sumber Daya Publik | Tidak | Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan. | Tidak tersedia | |
Grup sumber daya khusus | Tidak | Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan. | Tidak tersedia | ||
Durasi Maksimum Berjalan | Tidak | Periode maksimum waktu selama komponen dapat berjalan. Jika periode ini terlampaui, tugas dihentikan. | Tidak tersedia | ||

