[发明专利]自适应地定位动态网页元素的系统和方法有效

专利信息
申请号: 200810108874.3 申请日: 2008-05-29
公开(公告)号: CN101593184A 公开(公告)日: 2009-12-02
发明(设计)人: 高伟;赵石顽;俞益琴;付荣耀 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市中咨律师事务所 代理人: 于 静;李 峥
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应 定位 动态 网页 元素 系统 方法
【权利要求书】:

1.一种自适应地定位动态网页元素的系统,包括:

XPath泛化器,用于基于描述HTML标签的关联度以及属性的重要性 的HTML知识数据库对网页元素的XPath路径表达式执行泛化过程,其 中所述泛化过程根据HTML知识数据库逐步地从Xpath路径中移除一些 标签和/或属性;以及

增强XPath解析引擎,用于通过泛化后的XPath路径表达式在目标网 页的HTML文档对象模型树中搜索所述网页元素,并且

当根据所述XPath路径表达式在所述HTML DOM树中找到元素时, 输出结果集合;以及

当没有找到元素时,通知所述XPath泛化器对所述XPath路径表达式 进行进一步泛化。

2.根据权利要求1所述的系统,其中所述HTML知识数据库进一步 包括HTML标签关联度表和HTML属性重要性表,其中所述HTML标 签关联度表用于表示HTML标签之间的关联度,所述HTML属性重要性 表用于表示HTML属性相对于HTML标签的重要性。

3.根据权利要求2所述的系统,其中所述HTML标签之间的关联度 和所述HTML属性相对于HTML标签的重要性分别用权重值来表示。

4.根据权利要求1所述的系统,其中所述XPath泛化器进一步用于: 基于所述HTML知识数据库,从所述XPath路径表达式中移除关联度未 达到一阈值的标签。

5.根据权利要求1所述的系统,其中所述XPath泛化器进一步用于: 基于所述HTML知识数据库,从所述XPath路径表达式中移除重要性未 达到一阈值的属性。

6.根据权利要求1或5所述的系统,其中所述XPath泛化器进一步 用于:当所述增强XPath解析引擎没有找到元素时调整所述阈值。

7.根据权利要求6所述的系统,其中取决于对于所需网页元素的查找 粒度和/或对系统性能的需求,改变所述阈值的调整幅度。

8.根据权利要求1或5所述的系统,其中所述XPath泛化器进一步 用于:当所述阈值达到一个预先设置的极限值时,通知所述增强XPath解 析引擎停止执行网页元素定位过程,并返回定位错误的消息。

9.一种自适应地定位动态网页元素的方法,包括:

基于描述HTML标签的关联度以及属性的重要性的HTML知识数据 库,对网页元素的XPath路径表达式执行泛化过程,其中所述泛化过程根 据HTML知识数据库逐步地从XPath路径中移除一些标签和/或属性;以 及

通过泛化后的XPath路径表达式在目标网页的HTML文档对象模型 树中搜索所述网页元素,并且

当根据所述XPath路径表达式在所述HTML DOM树中找到元素时, 输出结果集合;以及

当没有找到元素时,对所述XPath路径表达式进行进一步泛化。

10.根据权利要求9所述的方法,其中所述HTML知识数据库进一步 包括HTML标签关联度表和HTML属性重要性表,其中所述HTML标 签关联度表用于表示HTML标签之间的关联度,所述HTML属性重要性 表用于表示HTML属性相对于HTML标签的重要性。

11.根据权利要求10所述的方法,其中所述HTML标签之间的关联 度和所述HTML属性相对于HTML标签的重要性分别用权重值来表示。

12.根据权利要求9所述的方法,其中所述方法进一步包括:基于所 述HTML知识数据库,从所述XPath路径表达式中移除关联度未达到一 阈值的标签。

13.根据权利要求9所述的方法,其中所述方法进一步包括:基于所 述HTML知识数据库,从所述XPath路径表达式中移除重要性未达到一 阈值的属性。

14.根据权利要求9或13所述的方法,其中所述方法进一步包括:当 没有找到元素时调整所述阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810108874.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top