全部產品
Search
文件中心

Platform For AI:LLM-文本品質打分和語種識別-FastText(DLC)

更新時間:Dec 18, 2024

LLM-文本品質打分和語種識別-FastText(DLC)組件主要用於識別文本的語種並計算得分,並根據語種和得分過濾樣本。輸入的OSS資料檔案(JSONL格式,樣本)需符合:每一行是一個合法的JSON對象,檔案由多行JSON對象組成,整個檔案本身不是合法的JSON對象。

支援的計算資源

DLC

演算法說明

使用fasttext演算法識別文本語種並計算信賴度,目前支援識別176種語言。包括:

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh']

配置組件

在Designer工作流程頁面添加LLM-語種識別和過濾(DLC)組件,並在介面右側配置相關參數:

參數類型

參數

是否必選

描述

預設值

欄位設定

目標處理欄位

要處理的欄位名稱。

語種id名稱

根據該語種名稱進行過濾,並結合最低得分對樣本進行過濾。多個語種名稱使用逗號","分隔,例如:"en,zh"。支援識別176種語言,詳情請參見演算法說明

最低得分

語種得分低於該值的樣本將被過濾掉。

資料輸出OSS目錄

處理後資料的OSS儲存目錄。如果為空白,使用工作空間預設路徑。

執行調優

多進程個數

設定進程數。

8

選擇資源群組

公用資源群組

選擇節點規格(CPU或GPU執行個體規格)、節點數量、專用網路。

專有資源群組

選擇CPU核心數、記憶體、共用記憶體、GPU卡數、節點數量。

最大運行時間長度

組件最大運行時間長度,超過這個時間,作業會被kill。