Gunakan LLM-Quality Predict dan Language Recognition-FastText (DLC) untuk identifikasi bahasa dan penyaringan teks-Platform For AI:LLM-Quality Predict dan Language Recognition-FastText (DLC)-Alibaba Cloud

Komponen LLM-Quality Predict and Language Recognition-FastText (DLC) dari Platform for AI (PAI) digunakan untuk mengenali bahasa, menghitung skor teks, serta menyaring teks berdasarkan bahasa dan skornya. File data Object Storage Service (OSS) input harus dalam format JSON Lines dengan persyaratan sebagai berikut: setiap baris adalah objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Algoritma ini menggunakan FastText untuk mengenali bahasa teks dan menghitung skor kepercayaan. Algoritma ini mendukung pengenalan 176 bahasa, yang diwakili oleh kode-kode berikut:

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh'].

Konfigurasikan komponen

Pada halaman pipeline Machine Learning Designer, konfigurasikan parameter dari LLM-Quality Predict and Language Recognition-FastText (DLC) komponen.

Tab	Parameter		Diperlukan	Deskripsi	Nilai default
Pengaturan Bidang	Bidang Proses Target		Ya	Nama bidang yang ingin Anda proses.	Tidak tersedia
	Nama ID Bahasa		Ya	ID bahasa. Algoritma menyaring teks berdasarkan nama bahasa dan skor minimum. Pisahkan beberapa nama bahasa dengan koma (,). Contoh: en,zh. Algoritma dapat mengenali 176 bahasa. Untuk melihat bahasa-bahasanya, lihat Deskripsi algoritma.	Tidak tersedia
	Skor Minimum		Ya	Teks yang memiliki skor lebih rendah dari nilai ini akan disaring.	Tidak tersedia
	Direktori OSS untuk Menyimpan OutputData		Tidak	Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja yang digunakan.	Tidak tersedia
Pengaturan	Jumlah Proses		Tidak	Jumlah proses.	8
	Pilih Grup Sumber Daya	Grup Sumber Daya Publik	Tidak	Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.	Tidak tersedia
	Pilih Grup Sumber Daya	Grup sumber daya khusus	Tidak	Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.	Tidak tersedia
	Durasi Maksimum Berjalan		Tidak	Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu ini terlampaui, tugas dihentikan.	Tidak tersedia