[发明专利]利用HTML脚本解析的异构系统间多层级数据同步方法及系统在审
申请号: | 201410179995.2 | 申请日: | 2014-04-30 |
公开(公告)号: | CN103927384A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 朱红;张明;孙佳炜;嵇文路;朱红勤;郭晏 | 申请(专利权)人: | 国家电网公司;江苏省电力公司南京供电公司;江苏省电力公司;南京鑫欧欣信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 瞿网兰 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 html 脚本 解析 系统 多层 级数 同步 方法 | ||
技术领域
本发明涉及一种数据解析及数据采集技术,尤其涉及一种利用HTML脚本解析的异构系统间多层级数据同步方法及系统。
背景技术
目前,随着信息技术的不断发展,现今各大行业企事业单位在经过多年的信息化建设,形成了基于自己公司实际情况的面向各个职能、业务部门的专业系统,而多个系统拥有相对独立的数据存储结构与方案,这对跨系统数据的共享及整合分析造成一定的难度。针对此类问题,现有解决方案通常是通过开发数据接口或生成特定的数据交换文件方式解决。此种解决方案无法脱离业务系统,需要系统开发方根据需求配合开发诸多接口,为一种双向都要开发的系统,协调工作较为繁琐。若将双向开发变为单向需求方开发,无疑将降低数据同步工作的开发难度,节约大量协调成本。
发明内容
本发明的目的是针对目前跨系统数据同步共享不便的问题,发明一种利用HTML脚本解析的异构系统间多层级数据同步方法,同时提供一种相匹配的系统。
本发明的技术方案之一是:
一种利用HTML脚本解析的异构系统间多层级数据同步方法,其特征是它包括以下步骤:
步骤101:后台程序模拟用户登录,通过指定URL页面发送请求;
步骤102:接收页面发送的URL请求;
步骤103:解析URL,抽取数据;
步骤104:判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;
步骤105:忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;
步骤106:采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;
步骤107:判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。
所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。
所述解析URL是指生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象,解析DOM文档对象并抽取出目标数据。
本发明的技术方案之二是:
一种利用HTML脚本解析的异构系统间多层级数据同步异构系统间多层级数据同步系统,其特征是它包括数据采集服务器200和数据存储服务器300,其中数据存储服务器300用于存储数据采集服务器200所采集的数据;所述的数据采集服务器200用于采集目标网页数据,包括用于通过后台程序模拟用户登录指定 URL 的网页并向后台发送请求的发送请求模块201、用于接收指定URL的网页所发送的请求的接收请求模块202和用于判断指定URL的网页是否有更新,在有更新时触发采集模块的判断模块203和用于采集指定URL网页的数据的数据采集模块204。
本发明的有益效果:
本发明解决了跨系统数据同步共享问题,具有速度快,准确性高的优点。同时通过异构系统间多层级数据同步系统将数据采集服务器与数据存储服务器分离,有利于减轻自身系统的负担,提高数据同步的效率。
附图说明
图 1 为本发明同步方法的流程图。
图2 为本发明同步系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
实施例一。
如图1所示。
一种利用HTML脚本解析的异构系统间多层级数据同步方法包括以下步骤:
步骤101:后台程序模拟用户登录,通过指定URL页面发送请求;
所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。
步骤102:接收页面发送的URL请求;
步骤103:解析URL,抽取数据;
解析所述URL,生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象解析DOM文档对象并抽取出目标数据。
步骤104:判断当前页面是否有更新;
查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤016;否则,执行步骤015。
步骤105:忽略本次URL请求;
对所述URL请求不作处理,直接忽略,结束流程。
步骤106:采集网页数据并存储;
采集所述URL对应的网页数据,交给数据存储服务器进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏省电力公司南京供电公司;江苏省电力公司;南京鑫欧欣信息技术有限公司,未经国家电网公司;江苏省电力公司南京供电公司;江苏省电力公司;南京鑫欧欣信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410179995.2/2.html,转载请声明来源钻瓜专利网。