LLM-特殊内容移除组件说明 - 人工智能平台 PAI

LLM-特殊内容移除组件主要用于大语言模型（LLM）的文本数据预处理工作，可以移除文本中的特殊内容，例如文章中的导航信息、作者信息、文章来源信息、URL链接、不可见字符、去除HTML格式字符并解析出HTML文本等。

使用限制

仅支持MaxCompute计算引擎。

算法简介

LLM-特殊内容移除组件支持以下功能：

首先使用换行符将文本切分为多行。

去除文章中的导航信息
- 导航信息关键字包括：'首页>'、'主页>'、'首页»'、'首页/'、'首页|'。
- 导航信息正则表达式：'当前位置:.*[>]{1,}'、'的位置:.*[>]{1,}'。
- 删除包含上述关键字或匹配上正则表达式的文本行。
去除文章中的作者信息

如果文本中包含如下某个关键字，同时必须包含至少一个标点符号'.?!;:。？！；，,！'，则删除该行。

作者信息关键字包括：'本报记者 '、'来源:'、'编辑:'、'登录|注册'、'本文地址:'、'发表日期:'、'添加时间:'、'分享到:'、'“扫一扫”'、'相关链接:'、'时时彩'、'网站导航 '、'| 联系我们'、'首页 '、'当前所在位置:'、'发布于 '、'所在位置: '。

去除文章来源信息

文章来源正则表达式包括：r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})'，r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[来源:|编辑:]'。

只在前五行匹配上述正则表达式。删除前五行中匹配上正则表达式的文本行。

说明
如果选择上述的“去除文章中的导航信息”和“去除文章中的作者信息”，则前五行是处理之后的五行，不是原始数据的前五行。
去除URL链接

删除文本中匹配正则表示式r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字符。
去除不可见字符

删除文本中匹配正则表示式'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'的字符。
去除HTML格式字符并解析出HTML文本

将文本中的'<li>'替换成'\n*'，'<ol>'替换成'\n*'，并删除'</li>'和'</ol>'字符。最后解析HTML文本并返回。

例如去除文章中的URL链接：

处理前：

/*
 AngularJS v1.3.0-beta.2
 (c) 2010-2014 Google, Inc. http://angularjs.org
 License: MIT
*/
(function(H,a,A){'use strict';function D(p,g){g=g||
{};a.forEach(g,function(a,c){delete g[c]});for(var c in
p)!p.hasOwnProperty(c)||"$"===c.charAt(0)&&"$"===c.charAt(1)||(g[c]=p[c])}})

处理后：

当前字段值弹窗中显示该字段存储的是 AngularJS v1.3.0-beta.2 的压缩 JavaScript 代码，以注释 /* AngularJS v1.3.0-beta.2 (c) 2010-2014 Google, Inc. License: MIT */ 开头，后接压缩后的匿名函数体。

可视化配置参数

您可以在Designer中，通过可视化的方式配置组件参数。

页签	参数	是否必选	描述	默认值
字段设置	选择目标处理列	是	选择要处理的列，支持选择多个列。	无
字段设置	设置输出表生命周期	否	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。	28

执行调优	每个实例的cpu数目	否	设定map task每个instance的CPU数目，取值范围为[50,800]。	100
	每个实例的memory大小，单位M	否	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。	1024
	每个实例处理的数据大小，单位M	否	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。	256

人工智能平台 PAI：LLM-特殊内容移除（MaxCompute）

使用限制

算法简介

可视化配置参数

相关文档