[发明专利]自适应地定位动态网页元素的系统和方法有效

申请号：	200810108874.3	申请日：	2008-05-29
公开（公告）号：	CN101593184A	公开（公告）日：	2009-12-02
发明（设计）人：	高伟;赵石顽;俞益琴;付荣耀	申请（专利权）人：	国际商业机器公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市中咨律师事务所	代理人：	于静;李峥
地址：	美国***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自适应定位动态网页元素系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明一般地涉及数据查询和采集，并且具体而言涉及一种自适应地定位动态网页元素的系统和方法。

背景技术

随着万维网(World Wide Web)的蓬勃发展，Web的内容变得越来越丰富。在进入Web 2.0时代之后，估计Web一共具有大约150-300亿个网页。因此，对于用户来说，手动地逐个访问感兴趣的网页以及在其中定位感兴趣的内容正在变成一项繁重的劳动。由此，许多网站提供REST、 SOAP、WSDL、FEED以及其它用于机器访问的Web服务。不过，相对于网页及其内容的高速增长，这些Web服务的改进要慢得多。网页上的大多数信息仍然仅可以由浏览网页的人所访问。尽管可以对网页进行很好地设计用来进行访问，但其仅出于对终端用户的考虑而关注于演示结构或类型设置，而很难同时照顾到这些用于机器访问的Web服务的需要。并且，在Web上分布的网页通常是高度动态的、易失的、分布式的、以及异类的。此外，与传统的纯文本文档相比而言，网页的内容通常要更加多种多样。

由此，为了处理Web中的海量的信息性和功能性资源，存在许多工具，其允许用户从现有的Web中剪切用户界面，提取数据、功能和过程，并将数据转换成可重用的订阅文件(FEED)和服务。

对于网页中的数据等的提取常常是通过XPath来实现的。XPath是指 XML路径语言(XML Path Language)，它是一种用来在XML文档中查找信息并确定XML文档中某部分的位置的语言。XPath可以被开发者用来当作小型查询语言，用于在XML文档中通过元素和属性进行导航。在 XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML文档是被作为节点树来对待的，树的根被称为文档节点或者根节点。XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式与可以在常规的电脑文件系统中看到的表达式非常相似。所述路径可以是绝对路径，也可以是相对路径。路径表达式可以具有谓词(predicate)、通配符和运算符。XPath还含有超过100 个内建的标准函数，这些函数用于字符串值、数值、日期和时间比较、节点处理、序列处理、逻辑值等等。一些示例性的XPath路径表达式示出如下：/html/body/div/div/form/table/tr[1]/td/input[name＝keyword]； /html/body/div/.../p/div/a[content＝next]；以及../input[id＝12345]。

在商业、学术和工业领域中存在大量的新的技术和应用，其被开发和实现用于基于XPath从Web提取数据、功能、过程。例如，首先将网页解析成HTML(超文本标记语言)DOM(文档对象模型)树。这里所述的DOM是指W3C(万维网联盟，World Wide Web Consortium)定义的标准的文档对象模型，它以树形结构表示HTML和XML(可扩展标记语言)文档，定义了遍历这个树和检查、修改树的节点的方法和属性。在DOM 树的结构下，HTML文档的各个节点被视为各种类型的节点对象。每个节点对象都有自己的属性和方法，利用这些属性和方法可以遍历整个文档树。在生成DOM文档树之后，可以通过属性、标签名称来查找所需的元素。然后，就可以通过XPath来定位所述元素，即所需的数据。一旦从网页中提取到用户所需的数据，就可以将其基于XPath的路径表达式记录下来，并且在未来需要时通过所记录的XPath路径表达式再次定位和访问所述数据。

然而，由于网页的前述的高度动态特性，大多数网页是动态生成的，所以网页中的内容常常是变化的。并且，许多网站会定期对其网页进行更新，诸如添加、修改或删除现有网页的内容、格式或布局。而这些更新或改变通常将会影响到网页中的数据的XPath的路径表达式，从而当用户试图通过之前记录的XPath路径表达式来访问所需数据时，就可能无法找到数据或者定位到错误的数据。因此，上述的基于XPath来访问和提取数据的方法不是自适应的。

因此，为了在网页动态变化时从中提取所需数据和功能，一大挑战是精确地定位非结构化的或者半结构化的数据。由此，存在对于下述技术的需要，所述技术用于在动态的网页中不管各种网页内容的变化而基于 XPath来定位所需的Web内容。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国际商业机器公司，未经国际商业机器公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810108874.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自适应地定位动态网页元素的系统和方法有效

专利文献下载