LLM-特殊內容移除組件主要用於大語言模型(LLM)的文本資料預先處理工作,可以移除文本中的特殊內容,例如文章中的導航資訊、作者資訊、文章來源資訊、URL連結、不可見字元、去除HTML格式字元並解析出HTML文本等。
使用限制
僅支援MaxCompute計算引擎。
演算法簡介
LLM-特殊內容移除組件支援以下功能:
首先使用分行符號將文本切分為多行。
-
去除文章中的導航資訊
-
導航資訊關鍵字包括:
'首頁>'、'首頁>'、'首頁»'、'首頁/'、'首頁|'。 -
導航資訊Regex:
'當前位置:.*[>]{1,}'、'的位置:.*[>]{1,}'。 -
刪除包含上述關鍵字或匹配上Regex的文本行。
-
-
去除文章中的作者資訊
如果文本中包含如下某個關鍵字,同時必須包含至少一個標點符號
'.?!;:。?!;,,!',則刪除該行。作者資訊關鍵字包括:
'本報記者 '、'來源:'、'編輯:'、'登入|註冊'、'本文地址:'、'發表日期:'、'添加時間:'、'分享到:'、'“掃一掃”'、'相關連結:'、'時時彩'、'網站導航 '、'| 聯絡我們'、'首頁 '、'當前所在位置:'、'發佈於 '、'所在位置: '。
-
去除文章來源資訊
文章來源Regex包括:
r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})',r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[來源:|編輯:]'。只在前五行匹配上述Regex。刪除前五行中匹配上Regex的文本行。
說明如果選擇上述的“去除文章中的導航資訊”和“去除文章中的作者資訊”,則前五行是處理之後的五行,不是未經處理資料的前五行。
-
去除URL連結
刪除文本中匹配正則表示式
r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字元。 -
去除不可見字元
刪除文本中匹配正則表示式
'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'的字元。 -
去除HTML格式字元並解析出HTML文本
將文本中的
'<li>'替換成'\n*','<ol>'替換成'\n*',並刪除'</li>'和'</ol>'字元。最後解析HTML文本並返回。
例如去除文章中的URL連結:
-
處理前:
/* AngularJS v1.3.0-beta.2 (c) 2010-2014 Google, Inc. http://angularjs.org License: MIT */ (function(H,a,A){'use strict';function D(p,g){g=g|| {};a.forEach(g,function(a,c){delete g[c]});for(var c in p)!p.hasOwnProperty(c)||"$"===c.charAt(0)&&"$"===c.charAt(1)||(g[c]=p[c])}}) -
處理後:
當前欄位值彈窗中顯示該欄位儲存的是 AngularJS v1.3.0-beta.2 的壓縮 JavaScript 代碼,以注釋
/* AngularJS v1.3.0-beta.2 (c) 2010-2014 Google, Inc. License: MIT */開頭,後接壓縮後的匿名函數體。
可視化配置參數
您可以在Designer中,通過可視化的方式配置組件參數。
|
頁簽 |
參數 |
是否必選 |
描述 |
預設值 |
|
欄位設定 |
選擇目標處理列 |
是 |
選擇要處理的列,支援選擇多個列。 |
無 |
|
設定輸出表生命週期 |
否 |
正整數,單位為天。預設28天,28天后該組件產生的暫存資料表被回收。 |
28 |
|
|
執行調優 |
每個執行個體的cpu數目 |
否 |
設定map task每個instance的CPU數目,取值範圍為[50,800]。 |
100 |
|
每個執行個體的memory大小,單位M |
否 |
設定map task每個instance的memory大小,單位為MB,取值範圍為[256,12288]。 |
1024 |
|
|
每個執行個體處理的資料大小,單位M |
否 |
設定map task每個instance的最大處理資料量,使用者可以通過控制該變數,實現對map端輸入的控制。單位為MB,取值範圍為[1,Integer.MAX_VALUE]。 |
256 |
相關文檔
關於Designer組件更詳細的內容介紹,請參見Designer概述。