[发明专利]一种自动解析论坛网站数据的方法有效

申请号：	201911034106.2	申请日：	2019-10-29
公开（公告）号：	CN110764781B	公开（公告）日：	2022-06-14
发明（设计）人：	陈强;栾江霞;章正道	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F8/41	分类号：	G06F8/41;G06F16/955
代理公司：	厦门市精诚新创知识产权代理有限公司 35218	代理人：	何家富
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自动解析论坛网站数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种自动解析论坛网站数据的方法，其中，所述方法包括以下步骤：S1、生成论坛解析插件模板：收集论坛格式样例，生成论坛解析插件模板并存储在论坛解析插件模板中心库中；S2、筛选论坛解析插件模板：获取待解析论坛网站的源码，根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板；S3、解析论坛网站数据：根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储本发明通过对互联网上面的论坛网站的网页数据进行判断，针对特定论坛网站筛选出了指定的论坛解析插件模板，为论坛网站数据的采集工作提供了精确的采集范围，同时更提高了对论坛网站数据采集的效率。

技术领域

本发明涉及互联网信息数据采集技术领域，具体涉及一种自动解析论坛网站数据的方法。

背景技术

伴随着互联网的快速发展，社会公众和企业单位对互联网数据的依赖越来越强，互联网是提供信息的重要渠道，互联网上的信息数以亿计，由于硬件资源、网络资源的限制，人们很难快速准确的来获取自己关注的热点信息。

互联网上的论坛网站类型复杂，例如facebook、twitter等，除论坛网页信息外还会存在大量的的其它内容网页，这在一定程度上加大了用户搜索热点信息的难度。

目前存在的一些论坛采集工具，只可以在用户指定的论坛网站中进行搜索采集，有一定的局限性，而且通常也会对大量非论坛网页进行判断，从而大大降低了论坛数据采集的效率。

发明内容

本发明旨在提供一种自动解析论坛网站数据，以解决目前论坛数据采集效率低下的问题。为此，本发明采用的具体技术方案如下：

根据本发明实施例，提供了一种自动解析论坛网站数据的方法，其中，所述方法包括以下步骤：

S1、生成论坛解析插件模板：收集论坛格式样例，生成论坛解析插件模板并存储在论坛解析插件模板中心库中；

S2、筛选论坛解析插件模板：获取待解析论坛网站的源码，根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板；

S3、解析论坛网站数据：根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。