[发明专利]用于抓取富互联网应用的方法和装置有效
申请号: | 201310428634.2 | 申请日: | 2013-09-18 |
公开(公告)号: | CN103823827B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | I·V·奥努;P·约内斯库;S·乔杜里;G·冯博赫曼;G-V·茹尔当 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 于静,张亚非 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 抓取 互联网 应用 方法 装置 | ||
技术领域
本发明一般地涉及使用数据处理系统的内容发现,更具体地说,涉及使用数据处理系统抓取(crawling)富互联网应用。
背景技术
Web应用抓取是内容索引的基础。为了索引和查找新信息,搜索引擎应能有效地抓取Web应用。抓取对于例如针对安全性、合规性和可访问性测试执行Web应用分析的工具也很重要。
通过引入更新、更丰富的Web应用开发技术,提供了更有用,交互性更强的Web应用。这些被称为富互联网应用(RIA)的应用已经改变了传统Web应用,从而产生响应更快的应用,提升了用户体验。
富互联网应用计算可以使用脚本在客户端侧处理,该脚本允许用户通过触发在用户接口组件上定义的事件(例如,超文本标记语言(HTML)元素)而(部分地或完全地)修改用户接口。异步通信允许用户检索网页的各部分,并允许Web设计者开始构建极为复杂和交互性极强的Web应用。
在一般增加Web应用可用性的同时实现的改进带来了许多Web应用抓取难题。一个重要难题是传统抓取技术不再与使用新技术构建的Web应用兼容,因为统一资源定位符(URL)未改变并且抓取引擎必须使用网页的文档对象模型(DOM)推断与应用状态相关的信息。显然,当前的搜索引擎和应用测试者均不能抓取如Bau等人披露的富互联网应用(BAU,J.、BURSZTEIN,E.、GUPTA,D与MITCHELL,J.C.,“State of the Art:Automated Black-Box Web Application Vulnerability Testing(现有技术:自主黑盒Web应用漏洞测试,发表于IEEE Symposium on Security and Privacy,2010年,332-345页)”)。抓取富互联网应用是一项需要解决以保持搜索和测试Web应用能力的问题。
此外,多数有关抓取富互联网应用的发表结果使用标准宽度优先或深度优先策略,其中稍微有些变化,如Mesbah等人公开的(MESBAH,A.、BOZDAG,E.和DEURSEN,A.等人发表的“Crawling Ajax by Inferring User Interface State Changes(通过推断用户接口状态变化抓取Ajax,发表于第8届国际Web工程大会会议记录,IEEE Computer Society,2008年,第122-134页)”)。虽然(纯粹形式的)宽度优先或深度优先策略保证在给定足够时间的情况下发现完整的应用,但是两个策略通常太宽泛且缺乏灵活性,因此可能无法有效地抓取多数富互联网应用。
Benjamin等人报告了有关基于模型的抓取的某些研究,该抓取使用有关网站结构的假设定义有效抓取策略(BENJAMIN,K.、BOCHMANN,G.V.、JOURDAN,G.V.和ONUT,I.V.,“Some Modeling Challenges when Testing Rich Internet Applications for Security(测试富互联网应用安全性的一些建模难题,发表于2010年在巴黎召开的第一届建模与漏洞检测国际研讨会(MDV2010))”)和(BENJAMIN,K.、VON BOCHMANN、G.,DINCTURK、M.E.,JOURDAN、G-V.和ONUT,I.V.,“A Strategy for Efficient Crawling of Rich Internet Applications(富互联网应用的有效抓取策略,S.Auer、O.Díaz和G.Papadopoulos编辑,发表于在帕福斯,塞浦路斯召开的Web工程:第11届国际会议ICWE2011,Springer Berlin/Heidelberg.,第74-89页)”)。但是,研究算法所用的假设通常太严格,多数现实世界富互联网应用无法遵循这一假设。
发明内容
根据一个实施例,一种用于抓取富互联网应用的计算机实现的过程根据已发现事件集合中的每个事件集合的预定优先级,在状态探索阶段执行所述已发现事件集合,其中具有较高优先级的事件在执行具有较低优先级的事件之前执行完毕。响应于判定剩余转变,所述计算机实现的过程在转变探索阶段执行事件集合。所述计算机实现的过程还判定作为执行该事件集合内的事件的结果,是否存在新状态,以及响应于判定存在新状态,返回到所述状态探索阶段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310428634.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节高度的工具柜
- 下一篇:机动车辆上的门把手组件