[发明专利]一种基于规则和语义的通用论坛主题帖页面信息抽取方法有效

申请号：	201711397820.9	申请日：	2017-12-21
公开（公告）号：	CN108153851B	公开（公告）日：	2021-06-18
发明（设计）人：	刘磊;孙孟涛;徐文扬;陈天琪	申请（专利权）人：	北京工业大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/957;G06F16/34
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于规则语义通用论坛主题页面信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法，用于对主题帖标题，作者，发帖时间和正文的提取，本发明抽取方法满足当今主流论坛的网页结构，克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。

技术领域

本发明属于文本信息处理领域，具体是涉及一种基于规则和语义的通用论坛主题帖页面信息抽取方法。

背景技术

论坛的主题帖信息具有十分重要的价值。主题帖提供的信息远远大于论坛其他文本。数据分析师可以从海量论坛的主题帖中挖掘知识，分析网民的关注热点。论坛的页面信息采集一般通过网络信息采集器(也称网络爬虫)进行采集。采集到的页面一般利用Xpath，正则表达式，HTML解析等信息抽取规则进行匹配，进而抽取出论坛页面上的标题、正文、时间、作者等主贴信息。但是由于各个论坛的网页结构不同，一般需要对不同论坛设计不同的信息抽取规则，需要花费大量的人工成本。

本发明针对网络论坛的主题帖页面，基于规则和语义信息，结合正则表达式技术，提出并实现了一个自动获取主题帖信息的信息抽取方法和系统。此方法可以满足对论坛主贴信息的文本过滤和抽取，经过测试，可以获取超过50个不同类型的论坛信息，节省了人工设计成本，并保证准确率在合理的范围内。

发明内容

本发明通过对比论坛结构和文本的共性，提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法，用于对主题帖标题、作者、发帖时间和正文的抽取，该方法满足当今主流论坛的网页结构，克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。

为实现上述目的，本发明采用如下的技术方案：

一种基于规则和语义的通用论坛主题帖页面信息抽取方法，包括以下步骤：

步骤(1)主题帖形式化表示

建立二元组B＝(T，S)，T表示主题帖，S表示帖子结构，T＝(T1，T2，T3，T4)，T1为标题，T2为发帖时间，T3为作者，T4为正文；S＝(S1，S2)，S1为由上至下结构，S2为由左至右的帖子结构；

步骤(2)定义文本特征和语义词典

步骤(2.1)获取论坛页面源码及文本

针对每个帖子获取其全部源码记为H；通过正则表达式过滤全部标签只保留文本，将过滤后只含有文本的源代码记为H’，每个网页记为一个二元组(H，H’)，web上所有论坛的主题帖即为：

Page=((H₁，H′₁)，(H₂，H′₂)(H_n，H′_n))

步骤(2.2)计算文本间距离