[发明专利]一种基于词汇关键度的网络论坛正文提取方法、装置有效

申请号：	201710601539.6	申请日：	2017-07-21
公开（公告）号：	CN107403002B	公开（公告）日：	2020-01-31
发明（设计）人：	王红;刘锐	申请（专利权）人：	山东师范大学
主分类号：	G06F16/957	分类号：	G06F16/957
代理公司：	37221 济南圣达知识产权代理有限公司	代理人：	张勇
地址：	250014 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词汇关键网络论坛正文提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向论坛主题帖的正文筛选方法，该方法涉及数据挖掘领域，是为解决从论坛主题帖中提取正文而提出的。本算法的实现方法是从网页总体中抽取部分样本，利用去除显著的非正文部分，对剩余内容进行分词，用TF‑IDF方法评价所有词汇的关键度，定位关键度最高的若干词汇所在位置，记录出现最频繁的位置，利用该位置信息对数据集中剩余的主题帖页面进行正文提取。经实验验证，本方法具有较高的准确度和执行效率。

技术领域

本发明设计网络数据挖掘领域，具体为根据论坛主题帖内词汇的关键度，提取主题帖正文的方法、装置。

背景技术

正文是一个论坛主题帖最重要的部分。因而提取出主题帖正文是对页面进行后续处理前最重要的准备工作。目前，对网页正文提取的方法主要有根据网页结构和文本特征进行正文提取的方法；使用布局相似性作为一句进行正文提取的方法；使用DOM节点的文本密度作为标准的正文提取方法等等。但是，在实际中，由于论坛正文的特征和论坛自身的主题紧密相关，人为指定特征缺乏客观性，又难以找到具有通用性的页面特征，上述方法均难以满足通用正文提取的需求。目前，基于词汇关键度的网络论坛正文提取方法尚未出现。

发明内容

为了解决现有技术的不足，本发明提供了一种基于词汇关键度的网络论坛正文提取方法，根据页面内有意义文本中各个词汇的关键度，选择关键词频繁出现的区域，以此指导正文提取，具有高准确度和执行效率。

本发明采用的技术方案为：

一种基于词汇关键度的网络论坛正文提取方法，包括：抽取数据集中部分主题帖页面样本，去除非正文部分，对剩余内容进行分词，计算所有词汇的关键度，定位关键度最高的部分词汇所在位置，引导提取数据集中剩余主题帖页面的正文，若正文内容正确则输出正文，若不正确，则从抽取数据集中部分主题帖页面样本开始重新处理。

进一步的，所述去除非正文部分包括：

去除主题帖页面中显著的非正文内容；根据停用词库排除主题帖页面中无关内容；根据相似规则去除主题帖页面中不应被包含在正文中的内容。

进一步的，去除主题帖页面中显著的非正文内容包括：去除主题帖页面源码中的标签及其内容，所述标签至少包括：<head>、<script>和<a>。

进一步的，根据停用词库排除主题帖页面中无关内容包括：根据停用词库，将出现停用词的整行文本去除；或者根据停用词库与待测文本比对以决定是否保留该段待测文本。

进一步的，根据相似规则去除主题帖页面中不应被包含在正文中的内容包括：

比对两段待测文本的若干起始字符，判断是否保留这两段文本；或者根据相似规则去除由程序生成的不应包含在正文中的内容。

进一步的，采用TF-IDF方法计算所有自会的关键度。

进一步的，所述定位关键度最高的部分词汇所在位置，引导提取数据集中剩余主题帖页面的正文包括：