全部产品
Search
文档中心

Platform For AI:LLM-Quality Predict and Language Recognition-FastText (DLC)

更新时间:Jun 22, 2025

Komponen LLM-Quality Predict and Language Recognition-FastText (DLC) dari Platform for AI (PAI) digunakan untuk mengenali bahasa, menghitung skor teks, serta menyaring teks berdasarkan bahasa dan skornya. File data Object Storage Service (OSS) input harus dalam format JSON Lines dengan persyaratan sebagai berikut: setiap baris adalah objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Algoritma ini menggunakan FastText untuk mengenali bahasa teks dan menghitung skor kepercayaan. Algoritma ini mendukung pengenalan 176 bahasa, yang diwakili oleh kode-kode berikut:

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh'].

Konfigurasikan komponen

Pada halaman pipeline Machine Learning Designer, konfigurasikan parameter dari LLM-Quality Predict and Language Recognition-FastText (DLC) komponen.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Nama ID Bahasa

Ya

ID bahasa. Algoritma menyaring teks berdasarkan nama bahasa dan skor minimum. Pisahkan beberapa nama bahasa dengan koma (,). Contoh: en,zh. Algoritma dapat mengenali 176 bahasa. Untuk melihat bahasa-bahasanya, lihat Deskripsi algoritma.

Tidak tersedia

Skor Minimum

Ya

Teks yang memiliki skor lebih rendah dari nilai ini akan disaring.

Tidak tersedia

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja yang digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu ini terlampaui, tugas dihentikan.

Tidak tersedia