LLM-特殊内容移除组件主要用于大语言模型(LLM)的文本数据预处理工作,可以移除文本中的特殊内容,例如文章中的导航信息、作者信息、文章来源信息、URL链接、不可见字符、去除HTML格式字符并解析出HTML文本等。
使用限制
仅支持MaxCompute计算引擎。
算法简介
LLM-特殊内容移除组件支持以下功能:
首先使用换行符将文本切分为多行。
-
去除文章中的导航信息
-
导航信息关键字包括:
'首页>'、'主页>'、'首页»'、'首页/'、'首页|'。 -
导航信息正则表达式:
'当前位置:.*[>]{1,}'、'的位置:.*[>]{1,}'。 -
删除包含上述关键字或匹配上正则表达式的文本行。
-
-
去除文章中的作者信息
如果文本中包含如下某个关键字,同时必须包含至少一个标点符号
'.?!;:。?!;,,!',则删除该行。作者信息关键字包括:
'本报记者 '、'来源:'、'编辑:'、'登录|注册'、'本文地址:'、'发表日期:'、'添加时间:'、'分享到:'、'“扫一扫”'、'相关链接:'、'时时彩'、'网站导航 '、'| 联系我们'、'首页 '、'当前所在位置:'、'发布于 '、'所在位置: '。
-
去除文章来源信息
文章来源正则表达式包括:
r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})',r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[来源:|编辑:]'。只在前五行匹配上述正则表达式。删除前五行中匹配上正则表达式的文本行。
说明如果选择上述的“去除文章中的导航信息”和“去除文章中的作者信息”,则前五行是处理之后的五行,不是原始数据的前五行。
-
去除URL链接
删除文本中匹配正则表示式
r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字符。 -
去除不可见字符
删除文本中匹配正则表示式
'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'的字符。 -
去除HTML格式字符并解析出HTML文本
将文本中的
'<li>'替换成'\n*','<ol>'替换成'\n*',并删除'</li>'和'</ol>'字符。最后解析HTML文本并返回。
例如去除文章中的URL链接:
-
处理前:
/* AngularJS v1.3.0-beta.2 (c) 2010-2014 Google, Inc. http://angularjs.org License: MIT */ (function(H,a,A){'use strict';function D(p,g){g=g|| {};a.forEach(g,function(a,c){delete g[c]});for(var c in p)!p.hasOwnProperty(c)||"$"===c.charAt(0)&&"$"===c.charAt(1)||(g[c]=p[c])}}) -
处理后:
当前字段值弹窗中显示该字段存储的是 AngularJS v1.3.0-beta.2 的压缩 JavaScript 代码,以注释
/* AngularJS v1.3.0-beta.2 (c) 2010-2014 Google, Inc. License: MIT */开头,后接压缩后的匿名函数体。
可视化配置参数
您可以在Designer中,通过可视化的方式配置组件参数。
|
页签 |
参数 |
是否必选 |
描述 |
默认值 |
|
字段设置 |
选择目标处理列 |
是 |
选择要处理的列,支持选择多个列。 |
无 |
|
设置输出表生命周期 |
否 |
正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。 |
28 |
|
|
执行调优 |
每个实例的cpu数目 |
否 |
设定map task每个instance的CPU数目,取值范围为[50,800]。 |
100 |
|
每个实例的memory大小,单位M |
否 |
设定map task每个instance的memory大小,单位为MB,取值范围为[256,12288]。 |
1024 |
|
|
每个实例处理的数据大小,单位M |
否 |
设定map task每个instance的最大处理数据量,用户可以通过控制该变量,实现对map端输入的控制。单位为MB,取值范围为[1,Integer.MAX_VALUE]。 |
256 |
相关文档
关于Designer组件更详细的内容介绍,请参见Designer概述。