全部產品

Platform For AI：LLM-文本標準化（MaxCompute）

更新時間：May 26, 2026

LLM-文本標準化組件主要用於大語言模型（LLM）的文本資料預先處理工作，可以將文本Unicode標準化以及繁體轉簡體。

使用限制

僅支援MaxCompute計算引擎。

演算法簡介

LLM-文本標準化組件支援以下功能：

將Unicode文本標準化，使用NFKC的方式標準化文本。

ftfy.fix_text(text, normalization='NFKC')
繁體轉成簡體使用opencc包轉換。

使用opencc包轉換。

效果如下：

處理前：資料表格中包含6行測試資料，列類型為 text，資料包括中英文混合文本、繁簡體中文、特殊字元及編碼亂碼等多種類型的常值內容。
處理後：表格共6行資料。第1行：✔ No problems；第2行：The Mona Lisa doesn't have eyebrows.；第3行：No problems；第4行：阿里巴巴；第5行：這是幾個繁體字,會被轉換為簡體字；第6行：試試繁體afadf字$#@#和簡體字,以及各123213*&dasd種不同字元數位組合轉換效果。繁體字已被轉換為簡體字，英文、數字及特殊字元保持不變。

可視化配置參數

您可以在Designer中，通過可視化的方式配置組件參數。

頁簽	參數	是否必選	描述	預設值
欄位設定	選擇目標處理列	是	選擇要處理的列，支援選擇多個列。	無
欄位設定	設定輸出表生命週期	否	正整數，單位為天。預設28天，28天后該組件產生的暫存資料表被回收。	28
執行調優	每個執行個體的cpu數目	否	設定map task每個instance的CPU數目，取值範圍為[50,800]。	100
	每個執行個體的memory大小，單位M	否	設定map task每個instance的memory大小，單位為MB，取值範圍為[256,12288]。	1024
	每個執行個體處理的資料大小，單位M	否	設定map task每個instance的最大處理資料量，使用者可以通過控制該變數，實現對map端輸入的控制。單位為MB，取值範圍為[1,Integer.MAX_VALUE]。	256

相關文檔

關於Designer組件更詳細的內容介紹，請參見Designer概述。