全部产品
Search
文档中心

人工智能平台 PAI:词频统计

更新时间:Feb 27, 2024

词频统计是指输入一些字符串(手动输入或者从指定的文件读取),用程序来统计这些字符串中总共有多少个单词,每个单词出现的次数。单词的总数(即为Total)为不重复的单词数总和。本文为您介绍Designer提供的词频统计。

词频指词的频率,即词在一定的语料中出现的次数。请在对文档进行分词的基础上,按行保序输出对应文档ID列(docId)对应的词,统计指定文档ID列对应文档内容(docContent)的词频。

组件配置

您可以使用以下任意一种方式,配置词频统计组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

选择文档ID列

选择文档ID列。

选择文档内容列

选择文档内容列。

执行调优

核心数

节点数量。

每个核心的内存

单个节点内存大小,单位为MB。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

pai -name doc_word_stat
    -project algo_public
    -DinputTableName=tdl_doc_test_split_word
    -DdocId=docid
    -DdocContent=content
    -DoutputTableNameMulti=doc_test_stat_multi
    -DoutputTableNameTriple=doc_test_stat_triple
    -Dlifecycle=7

参数名称

是否必选

描述

默认值

inputTableName

输入表名称。

docId

标识文档ID的列名,仅可指定一列。

docContent

标识文档内容的列名,仅可指定一列。

outputTableNameMulti

输出保序词语表名。

outputTableNameTriple

输出词频统计表名。

inputTablePartitions

输入表中,参与训练的分区。系统支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级分区

说明

指定多个分区时,分区之间使用英文逗号(,)分隔。

选择所有分区

lifecycle

输出表生命周期。正整数。

-1

常见问题

  • 参数outputTableNameMulti指定的表是docId列及docId列对应的文档内容(docContent)完成分词后,按各个词语在文档中出现的顺序依次输出。

  • 参数outputTableNameTriple指定的表输出docId列及docId列对应的文档内容(docContent)。