[发明专利]一种基于规则和语义的通用论坛主题帖页面信息抽取方法有效
| 申请号: | 201711397820.9 | 申请日: | 2017-12-21 |
| 公开(公告)号: | CN108153851B | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 刘磊;孙孟涛;徐文扬;陈天琪 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/957;G06F16/34 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 规则 语义 通用 论坛 主题 页面 信息 抽取 方法 | ||
本发明提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法,用于对主题帖标题,作者,发帖时间和正文的提取,本发明抽取方法满足当今主流论坛的网页结构,克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于规则和语义的通用论坛主题帖页面信息抽取方法。
背景技术
论坛的主题帖信息具有十分重要的价值。主题帖提供的信息远远大于论坛其他文本。数据分析师可以从海量论坛的主题帖中挖掘知识,分析网民的关注热点。论坛的页面信息采集一般通过网络信息采集器(也称网络爬虫)进行采集。采集到的页面一般利用Xpath,正则表达式,HTML解析等信息抽取规则进行匹配,进而抽取出论坛页面上的标题、正文、时间、作者等主贴信息。但是由于各个论坛的网页结构不同,一般需要对不同论坛设计不同的信息抽取规则,需要花费大量的人工成本。
本发明针对网络论坛的主题帖页面,基于规则和语义信息,结合正则表达式技术,提出并实现了一个自动获取主题帖信息的信息抽取方法和系统。此方法可以满足对论坛主贴信息的文本过滤和抽取,经过测试,可以获取超过50个不同类型的论坛信息,节省了人工设计成本,并保证准确率在合理的范围内。
发明内容
本发明通过对比论坛结构和文本的共性,提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法,用于对主题帖标题、作者、发帖时间和正文的抽取,该方法满足当今主流论坛的网页结构,克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。
为实现上述目的,本发明采用如下的技术方案:
一种基于规则和语义的通用论坛主题帖页面信息抽取方法,包括以下步骤:
步骤(1)主题帖形式化表示
建立二元组B=(T,S),T表示主题帖,S表示帖子结构,T=(T1,T2,T3,T4),T1为标题,T2为发帖时间,T3为作者,T4为正文;S=(S1,S2),S1为由上至下结构,S2为由左至右的帖子结构;
步骤(2)定义文本特征和语义词典
步骤(2.1)获取论坛页面源码及文本
针对每个帖子获取其全部源码记为H;通过正则表达式过滤全部标签只保留文本,将过滤后只含有文本的源代码记为H’,每个网页记为一个二元组(H,H’),web上所有论坛的主题帖即为:
Page=((H1,H′1),(H2,H′2)(Hn,H′n))
步骤(2.2)计算文本间距离
获取一个H′中所有文本,文本之间的两两距离计算公式如下:
Dist(a,b)=Index(a)-Index(b)
其中,a,b是两种文本,Index(*)是文本首字索引,
步骤(2.3)计算URL相似性
获取一个H中所有URL,URL之间的两两相似性计算方法如下:
Sim(a,b)=len(MaxStr(a,b))
其中a,b是两种类型文本,MaxStr(a,b)是指a,b的最大公共子串,若Sim>M则认为a,b具有相似性,否则不具有相似性,M为相似性阈值,
步骤(2.4)构建噪声词典
1、获取相同论坛的不同帖子J个,对这J个H′的每一行进行词频/句频统计。取词/句频最高的P个词/句构成噪声集,P为频数阈值,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711397820.9/2.html,转载请声明来源钻瓜专利网。





