[发明专利]一种物联网动态页面实时信息采集方法有效

专利信息
申请号: 201310005966.X 申请日: 2013-01-08
公开(公告)号: CN103092936B 公开(公告)日: 2018-01-02
发明(设计)人: 孔英会;沈丹凤 申请(专利权)人: 华北电力大学(保定)
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 石家庄冀科专利商标事务所有限公司13108 代理人: 李羡民,高锡明
地址: 071003 河*** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 联网 动态 页面 实时 信息 采集 方法
【说明书】:

技术领域

发明涉及一种基于Watir的可实时获取物联网实体信息的方法,属于数据处理技术领域。

背景技术

物联网(Internet Of Things)泛指“物物相连的互联网”。它的核心和基础是互联网,是在互联网基础上延伸和扩展的网络,其用户端延伸和扩展到了任何物品与物品之间。物联网把任何物品与互联网相连接,进行信息交换和通信。随着嵌入式传感器在各领域的广泛应用,物联网技术已经逐渐融入到人们的生活中。物联网的应用非常广泛,遍及智能交通、环境保护、仓储物流、公共安全、工业检测、平安家居等,几乎涉及到生活中的任何一个领域。物联网包含了海量的实体,这些实体每时每刻都会有新的状态,例如,通过传感器感知室内各种状况,温度,湿度还有光照程度等,感知道路的实时拥堵信息等。要实现对物联网的智能控制以及扩展对物联网的应用,就必须对这些海量实体的实时信息进行搜索分析,从这些海量实体返回的实时状态数据中搜寻得到有用的信息。例如,通过传感器感知的室内状况,搜索出特定温度的房间;通过道路的实时拥堵信息查找到不拥挤的道路;通过包裹传来的信息搜索受损的包裹等等。而获取物联网实体实时信息是这一切的前提条件。物联网实体信息通过网页实时发布,如何通过现有的互联网在动态网页上采集到这些实时跳变的数据成为了物联网研究领域的重要课题之一。

根据网页中是否含有浏览器执行脚本,将网页分为静态网页和动态网页。静态网页的主体内容及其内部包含的超链接网络地址分别以文本信息和统一资源标识符(URL)的方式直接嵌入网页源文件的标记中。而动态网页中除了包含少量静态URL外,还含有大量必须通过浏览器执行脚本才能得到的超链接网络地址和网页主体内容。物联网实体实时信息发布就是通过动态页面实现,物联网实验平台将传感器感知到的信息使用Push方式推送到服务器端,通过JavaScript脚本动态加载到网页中,从而使页面数据实时更新,房间内的温度,湿度,光照一有变化,马上就能反映到页面上。

对于静态网页,可以使用传统的网络爬虫抓取页面,通过HTML标记识别的方法,实现页面主体内容与其所含超链接网络地址的提取功能。但对于动态网页,传统的网络爬虫无法获取页面内容,更不能用传统的HTML标记方法提取到页面中实时跳变的数据。动态页面内容的获取方法有多种,但均不能实时获取页面跳变的数据。文献“金晓鸥,钟宝燕,李翔所著的基于Rhino的JavaScript动态页面解析研究与实现[J].计算机技术与发展,2008,18(02):01-04,50.”中所述的方法脚本解释引擎Rhino无法识别JavaScript脚本片段中包含的HTML DOM(文件对象模型,是W3C组织推荐的处理可扩展置标语言的标准编程接口),在把动态网页脚本片段传递给Rhino前,需要先对脚本片段中的HTML DOM实现本地创建,给出每个HTML DOM的方法和属性描述。所述方法用时长且对于大量JavaScript加载网页来说非常繁琐。文献“万久士,李翔,林祥所著的基于JSSh的动态网页获取研究与实现[J].信息安全与通信保密.2010(04):93-95.”中的基于JSSh(Javascript Shell Server)的方案一次HTTP请求仅获取一次DOM信息,请求等待回应耗时长,无法满足实时动态的要求。

综上所述,对于物联网实时动态页面数据的获取,在应对页面数据的动态性的同时要保证获取数据的实时性,以及所得到的数据对后续搜索分析工作的可扩展性。但是目前的网络爬虫或者页面采集工具无法实现动态数据的实时抓取,同时所得到的数据格式单一,可扩展性差。

发明内容

本发明的目的在于针对现有技术之弊端,提供一种物联网动态页面实时信息采集方法,以实现物联网动态页面信息的实时抓取。

本发明所述问题是以下述技术方案实现的:

一种物联网动态页面实时信息采集方法,所述方法分为四个部分,涉及四个模块,这四个模块分别是加载页面模块、获取页面HTML模块、解析所得HTML模块和数据存储模块;其中,加载页面模块通过网络链接地址加载外部页面,并将加载的动态页面传递给获取HTML模块,由获取HTML模块获取该页面的HTML文档,同时将所获得的HTML文档传递给解析HTML模块,解析HTML模块通过定位技术从得到的HTML文档中解析出所需要的文本内容,并将这些文本内容传给数据存储模块进行存储。

上述物联网动态页面实时信息采集方法,所述方法具体按以下步骤进行:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310005966.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top