[发明专利]一种自动解析论坛网站数据的方法有效
| 申请号: | 201911034106.2 | 申请日: | 2019-10-29 |
| 公开(公告)号: | CN110764781B | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 陈强;栾江霞;章正道 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
| 主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F16/955 |
| 代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自动 解析 论坛 网站 数据 方法 | ||
本发明涉及一种自动解析论坛网站数据的方法,其中,所述方法包括以下步骤:S1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;S2、筛选论坛解析插件模板:获取待解析论坛网站的源码,根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;S3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。
技术领域
本发明涉及互联网信息数据采集技术领域,具体涉及一种自动解析论坛网站数据的方法。
背景技术
伴随着互联网的快速发展,社会公众和企业单位对互联网数据的依赖越来越强,互联网是提供信息的重要渠道,互联网上的信息数以亿计,由于硬件资源、网络资源的限制,人们很难快速准确的来获取自己关注的热点信息。
互联网上的论坛网站类型复杂,例如facebook、twitter等,除论坛网页信息外还会存在大量的的其它内容网页,这在一定程度上加大了用户搜索热点信息的难度。
目前存在的一些论坛采集工具,只可以在用户指定的论坛网站中进行搜索采集,有一定的局限性,而且通常也会对大量非论坛网页进行判断,从而大大降低了论坛数据采集的效率。
发明内容
本发明旨在提供一种自动解析论坛网站数据,以解决目前论坛数据采集效率低下的问题。为此,本发明采用的具体技术方案如下:
根据本发明实施例,提供了一种自动解析论坛网站数据的方法,其中,所述方法包括以下步骤:
S1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;
S2、筛选论坛解析插件模板:获取待解析论坛网站的源码,根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;
S3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。
进一步地,S1的具体过程为:
S11:通过人工从互联网中收集大量论坛网站;
S12:对这些论坛网站的论坛格式进行分析,将具有共性的论坛网站整理成一个统一论坛格式,生成统一的版块页正则匹配规则、主题页正则匹配规则和回复页正则匹配规则;
S13:将这些论坛格式形成相应的论坛解析插件模板,每一种论坛格式都定义一个唯一标识,所述唯一标识都会生成一个对应的通用的论坛解析插件模板,并记录关联关系,存储于论坛解析插件模板中心库中。
进一步地,论坛格式可包括Discuz、phpwind、byr、dvbbs、LeadBBS、bbsxp、BbsMax和YxBBs等。
进一步地,S2的具体过程为:
S21:获取待解析论坛网站的网页源码,根据网站链接URL判断该论坛网站是否已经有指定的论坛解析插件模板;若有,则退出筛选,进入S3;否则进入S22;
S22:加载论坛解析插件模板中心库中的所有论坛解析插件模板,存放在列表中,进入S23;
S23:扫描列表,判断是否已扫描到最后一个,若是,则进入S28,否则进入S24;
S24:根据论坛解析插件模板的版块页正则匹配规则对论坛网页进行版块页的提取,判断提取的版块页链接URL个数是否大于0,若是,则进入S25;否则返回S23,扫描下一个论坛解析插件模板;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911034106.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种缺省的OpenMP调度策略
- 下一篇:软件的保护方法及装置





