[发明专利]网页数据监测方法和设备在审
申请号: | 201710552265.6 | 申请日: | 2017-07-07 |
公开(公告)号: | CN109255088A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 张春荣 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;曹杰 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页源码 标签节点 方法和设备 节点数据 内存消耗 网页数据 遍历 图形数据库 监控过程 监控效率 监测 解析 监控 访问 | ||
本发明提供网页数据监测方法和设备,用于解决需要提供一种内存消耗小,监控效率高,且监控过程简单的监控方法的问题。其中方法包括接收第一网页源码;解析第一网页源码获得第一网页源码的DOM树;根据遍历第一网页源码的DOM树时,其标签节点x的访问顺序,从图形数据库中获得第二网页源码的DOM树的对应节点数据y;比较标签节点x的数据和所述对应节点数据y,获得比较结果;直到遍历比较第一网页源码的DOM树的所有的标签节点;本发明的方法节省内存消耗。
技术领域
本发明涉及计算机技术,具体涉及网页数据监测方法和设备。
背景技术
DOM是W3C的标准,DOM定义了访问HTML和XML文档的标准。HTML DOM定义了所有HTML元素的对象和属性,以及访问他们的方法。如下面一段网页源码:
其中html是网页根节点,‘lang=en’,作为根节点的属性,Head、body是html的两个子节点。通过这样不断循环下去,可以将整个网页的逻辑关系及节点属性、内容表现成树的形式,如图1所示。
若要比较网页源码中具体哪些节点的内容发生变化,或判断网页结构是否发生变化,进一步哪一部分网页结构发生变化,则需要通过将网页源码根据HTML的语法规则解析该网页源码,再进一步比较内容和结构,网页源码的解析非常消耗内存,因而这种比较方法并不常用。
现有技术中,另一种对网页的监测基于解析网页获得的数据,即将获得的数据存储于二维关系的表中,通过比较两个网页在二维表中对应的记录,判断网页内容是否发生变化。而由于同一网站的页面结构是变化的(即网页版面结构更新,例如在更新前的电视剧详情页中有主要演员参演的其他电视剧列表,而更新后则没有),导致预先设计的二维表的数据库可能不适合存储结构变化后的网页,而对于新的网页需要设计新的表存储该网页中获得的数据,以监测该网页内容的变化。
现有技术中常采用添加表或更新表字段的方式,解决新网页的记录问题,例如新网页中新增演员的显示区域,则在对应的表中增加演员字段,和新建演员表,用于记录这个新增区域的数据内容。
如上可知由于网页的结构可能非常复杂,而导致表的关联也很复杂,而表的关联关系往往缺乏文档记录,这往往导致难以高效的构建搜索式搜索上述采集到的数据。以及由于网页结构变化,需要更新这些表的结构,或添加关系表时,往往容易出错。即由于表的关系或结构出错,从而难以保证记录在表中的数据的含义与网页中数据含义的一致性,最终导致网页监测的失败。
因此,需要提供一种监控过程简单不易出错的监控方法。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的网页数据监测方法和设备。
第一方面,本发明提供一种网页数据监测方法,包括:比较第一网页源码对应的DOM树与第二网页源码的DOM树对应的节点数据,获得网页监测结果;
其中第二网页源码数据对应的DOM树存储于图形数据库中。
可选的,所述比较第一网页源码对应的DOM树与第二网页源码的DOM树对应的节点数据,获得网页监测结果,包括:
解析第一网页源码获得第一网页源码的DOM树;
根据遍历第一网页源码的DOM树时,其标签节点x的访问顺序,从图形数据库中获得第二网页源码的DOM树的对应节点数据y;
比较标签节点x的数据和所述对应节点数据y,获得比较结果;
直到遍历第一网页源码的DOM树的所有的标签节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710552265.6/2.html,转载请声明来源钻瓜专利网。