Komponen LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) dari Platform for AI (PAI) digunakan untuk mengidentifikasi bahasa teks, menghitung skor kepercayaan, dan menyaring sampel berdasarkan bahasa serta skor. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLMs).
Batasan
Komponen LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Algoritma ini menggunakan FastText untuk mengidentifikasi bahasa teks dan menghitung skor kepercayaan. Algoritma ini mendukung identifikasi 176 bahasa yang diwakili oleh kode-kode berikut:
['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh']
Konfigurasikan komponen
Anda dapat mengonfigurasi parameter komponen LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.
Tab | Parameter | Diperlukan | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. | Tidak ada nilai default |
Whether to save the language id and score | Tidak | Menentukan apakah akan menyimpan nama bahasa dan skor kepercayaan ke tabel output. Jika Anda memilih kotak centang ini, sistem menambahkan dua kolom ke tabel output untuk menyimpan hasilnya. Jika tidak, hasilnya tidak disimpan.
| Tidak ada nilai default | |
SQL Script | Tidak | Tentukan pernyataan WHERE yang menyimpan nama bahasa dalam kolom | Tidak ada nilai default | |
Siklus hidup tabel output | Tidak | Nilainya adalah bilangan bulat positif. Unit: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori setiap instance tugas map. Unit: MB. Nilai valid: 256 hingga 12288. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola input sebuah map. Unit: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.