全部产品
Search
文档中心

Platform For AI:LLM-Text Normalizer (DLC)

更新时间:Jun 22, 2025

Gunakan komponen LLM-Text Normalizer (DLC) dari Platform for AI (PAI) untuk melakukan normalisasi teks Unicode atau konversi bahasa dari Tionghoa tradisional ke Tionghoa sederhana. File data input Object Storage Service (OSS) harus dalam format JSON Lines dengan setiap baris berupa objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk detail lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Komponen LLM-Text Normalizer (DLC) mendukung fitur-fitur berikut:

  • Normalisasi teks Unicode menggunakan metode Normalization Form Compatibility Composition (NFKC).

    ftfy.fix_text(text, normalization='NFKC')

  • Konversi bahasa dari Tionghoa tradisional ke Tionghoa sederhana menggunakan paket opencc.

Contoh:

Sebelum diproses

image

Setelah diproses

image

Konfigurasikan komponen

Pada halaman pipeline Machine Learning Designer, konfigurasikan parameter komponen LLM-Text Normalizer (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Apakah akan menormalkan teks Unicode (bentuk NFKC)

Tidak

Menentukan apakah akan menormalkan teks Unicode menggunakan metode NFKC.

Dipilih

Apakah akan mengonversi Tionghoa tradisional ke Tionghoa sederhana

Tidak

Menentukan apakah akan mengonversi Tionghoa tradisional ke Tionghoa sederhana.

Dipilih

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode maksimum waktu selama komponen dapat berjalan. Jika periode ini terlampaui, tugas dihentikan.

Tidak tersedia