LLM-文本標準化組件主要用於大語言模型(LLM)的文本資料預先處理工作,可以將文本Unicode標準化以及繁體轉簡體。
使用限制
僅支援MaxCompute計算引擎。
演算法簡介
LLM-文本標準化組件支援以下功能:
-
將Unicode文本標準化,使用NFKC的方式標準化文本。
ftfy.fix_text(text, normalization='NFKC') -
繁體轉成簡體使用opencc包轉換。
使用
opencc包轉換。
效果如下:
-
處理前:資料表格中包含6行測試資料,列類型為
text,資料包括中英文混合文本、繁簡體中文、特殊字元及編碼亂碼等多種類型的常值內容。 -
處理後:表格共6行資料。第1行:
✔ No problems;第2行:The Mona Lisa doesn't have eyebrows.;第3行:No problems;第4行:阿里巴巴;第5行:這是幾個繁體字,會被轉換為簡體字;第6行:試試繁體afadf字$#@#和簡體字,以及各123213*&dasd種不同字元數位組合轉換效果。繁體字已被轉換為簡體字,英文、數字及特殊字元保持不變。
可視化配置參數
您可以在Designer中,通過可視化的方式配置組件參數。
|
頁簽 |
參數 |
是否必選 |
描述 |
預設值 |
|
欄位設定 |
選擇目標處理列 |
是 |
選擇要處理的列,支援選擇多個列。 |
無 |
|
設定輸出表生命週期 |
否 |
正整數,單位為天。預設28天,28天后該組件產生的暫存資料表被回收。 |
28 |
|
|
執行調優 |
每個執行個體的cpu數目 |
否 |
設定map task每個instance的CPU數目,取值範圍為[50,800]。 |
100 |
|
每個執行個體的memory大小,單位M |
否 |
設定map task每個instance的memory大小,單位為MB,取值範圍為[256,12288]。 |
1024 |
|
|
每個執行個體處理的資料大小,單位M |
否 |
設定map task每個instance的最大處理資料量,使用者可以通過控制該變數,實現對map端輸入的控制。單位為MB,取值範圍為[1,Integer.MAX_VALUE]。 |
256 |
相關文檔
關於Designer組件更詳細的內容介紹,請參見Designer概述。