[发明专利]一种基于词汇关键度的网络论坛正文提取方法、装置有效

申请号：	201710601539.6	申请日：	2017-07-21
公开（公告）号：	CN107403002B	公开（公告）日：	2020-01-31
发明（设计）人：	王红;刘锐	申请（专利权）人：	山东师范大学
主分类号：	G06F16/957	分类号：	G06F16/957
代理公司：	37221 济南圣达知识产权代理有限公司	代理人：	张勇
地址：	250014 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词汇关键网络论坛正文提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于词汇关键度的网络论坛正文提取方法，其特征在于，包括：抽取数据集中部分主题帖页面样本，去除非正文部分，对剩余内容进行分词，计算所有词汇的关键度，定位关键度最高的部分词汇所在位置，引导提取数据集中剩余主题帖页面的正文，若正文内容正确则输出正文，若不正确，则从抽取数据集中部分主题帖页面样本开始重新处理；

所述去除非正文部分包括：

去除主题帖页面中显著的非正文内容；根据停用词库排除主题帖页面中无关内容；根据相似规则去除主题帖页面中不应被包含在正文中的内容。

2.根据权利要求1所述的方法，其特征在于，去除主题帖页面中显著的非正文内容包括：去除主题帖页面源码中的标签及其内容，所述标签至少包括：<head>、<script>和<a>。

3.根据权利要求1所述的方法，其特征在于，根据停用词库排除主题帖页面中无关内容包括：根据停用词库，将出现停用词的整行文本去除；或者根据停用词库与待测文本比对以决定是否保留该待测文本。

4.根据权利要求1所述的方法，其特征在于，根据相似规则去除主题帖页面中不应被包含在正文中的内容包括：

比对两段待测文本的若干起始字符，判断是否保留这两段文本；或者根据相似规则去除由程序生成的不应包含在正文中的内容。

5.根据权利要求1所述的方法，其特征在于，采用TF-IDF方法计算所有词汇的关键度。

6.根据权利要求1所述的方法，其特征在于，所述定位关键度最高的部分词汇所在位置，引导提取数据集中剩余主题帖页面的正文包括：

在主题帖页面内对关键度最高的词汇打分，选出正文出现概率最高的位置；

在不同页面中，对所述正文出现概率最高的位置再次打分，以确定正文位置；

根据所确定的正文位置，提取数据集中剩余主题帖页面的正文。

7.根据权利要求6所述的方法，其特征在于，根据所确定的正文位置，提取数据集中剩余主题帖页面的正文包括：