全部产品
Search
文档中心

Platform For AI:LLM-Text Quality Predict and Language Identification-FastText (MaxCompute)

更新时间:Jul 02, 2025

Komponen LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) dari Platform for AI (PAI) digunakan untuk mengidentifikasi bahasa teks, menghitung skor kepercayaan, dan menyaring sampel berdasarkan bahasa serta skor. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLMs).

Batasan

Komponen LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Algoritma ini menggunakan FastText untuk mengidentifikasi bahasa teks dan menghitung skor kepercayaan. Algoritma ini mendukung identifikasi 176 bahasa yang diwakili oleh kode-kode berikut:

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh']

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses.

Tidak ada nilai default

Whether to save the language id and score

Tidak

Menentukan apakah akan menyimpan nama bahasa dan skor kepercayaan ke tabel output. Jika Anda memilih kotak centang ini, sistem menambahkan dua kolom ke tabel output untuk menyimpan hasilnya. Jika tidak, hasilnya tidak disimpan.

  • Language id saved column name: nama kolom tempat nama bahasa disimpan. Nilai default: language_id.

  • Language score saved column name: nama kolom tempat skor kepercayaan disimpan. Nilai default: language_score.

Tidak ada nilai default

SQL Script

Tidak

Tentukan pernyataan WHERE yang menyimpan nama bahasa dalam kolom language_id, dan skor kepercayaan dalam kolom language_score. Anda dapat memfilter nilai berdasarkan hasil dari kedua kolom ini. Contoh: where language_id = 'en' and language_score >= 0.8. Jika Anda menyimpan hasil bahasa dan mengubah nama kolom, konfigurasikan parameter berdasarkan nama kolom yang dimodifikasi.

Tidak ada nilai default

Siklus hidup tabel output

Tidak

Nilainya adalah bilangan bulat positif. Unit: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800.

100

The memory size per instance of map task

Tidak

Ukuran memori setiap instance tugas map. Unit: MB. Nilai valid: 256 hingga 12288.

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola input sebuah map. Unit: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.