[发明专利]自适应地定位动态网页元素的系统和方法有效
| 申请号: | 200810108874.3 | 申请日: | 2008-05-29 |
| 公开(公告)号: | CN101593184A | 公开(公告)日: | 2009-12-02 |
| 发明(设计)人: | 高伟;赵石顽;俞益琴;付荣耀 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市中咨律师事务所 | 代理人: | 于 静;李 峥 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应 定位 动态 网页 元素 系统 方法 | ||
技术领域
本发明一般地涉及数据查询和采集,并且具体而言涉及一种自适应地 定位动态网页元素的系统和方法。
背景技术
随着万维网(World Wide Web)的蓬勃发展,Web的内容变得越来 越丰富。在进入Web 2.0时代之后,估计Web一共具有大约150-300亿个 网页。因此,对于用户来说,手动地逐个访问感兴趣的网页以及在其中定 位感兴趣的内容正在变成一项繁重的劳动。由此,许多网站提供REST、 SOAP、WSDL、FEED以及其它用于机器访问的Web服务。不过,相对 于网页及其内容的高速增长,这些Web服务的改进要慢得多。网页上的大 多数信息仍然仅可以由浏览网页的人所访问。尽管可以对网页进行很好地 设计用来进行访问,但其仅出于对终端用户的考虑而关注于演示结构或类 型设置,而很难同时照顾到这些用于机器访问的Web服务的需要。并且, 在Web上分布的网页通常是高度动态的、易失的、分布式的、以及异类的。 此外,与传统的纯文本文档相比而言,网页的内容通常要更加多种多样。
由此,为了处理Web中的海量的信息性和功能性资源,存在许多工具, 其允许用户从现有的Web中剪切用户界面,提取数据、功能和过程,并将 数据转换成可重用的订阅文件(FEED)和服务。
对于网页中的数据等的提取常常是通过XPath来实现的。XPath是指 XML路径语言(XML Path Language),它是一种用来在XML文档中查 找信息并确定XML文档中某部分的位置的语言。XPath可以被开发者用 来当作小型查询语言,用于在XML文档中通过元素和属性进行导航。在 XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、 注释以及文档(根)节点。XML文档是被作为节点树来对待的,树的根被 称为文档节点或者根节点。XPath使用路径表达式来选取XML文档中的 节点或者节点集。这些路径表达式与可以在常规的电脑文件系统中看到的 表达式非常相似。所述路径可以是绝对路径,也可以是相对路径。路径表 达式可以具有谓词(predicate)、通配符和运算符。XPath还含有超过100 个内建的标准函数,这些函数用于字符串值、数值、日期和时间比较、节 点处理、序列处理、逻辑值等等。一些示例性的XPath路径表达式示出如 下:/html/body/div/div/form/table/tr[1]/td/input[name=keyword]; /html/body/div/.../p/div/a[content=next];以及../input[id=12345]。
在商业、学术和工业领域中存在大量的新的技术和应用,其被开发和 实现用于基于XPath从Web提取数据、功能、过程。例如,首先将网页 解析成HTML(超文本标记语言)DOM(文档对象模型)树。这里所述 的DOM是指W3C(万维网联盟,World Wide Web Consortium)定义的 标准的文档对象模型,它以树形结构表示HTML和XML(可扩展标记语 言)文档,定义了遍历这个树和检查、修改树的节点的方法和属性。在DOM 树的结构下,HTML文档的各个节点被视为各种类型的节点对象。每个节 点对象都有自己的属性和方法,利用这些属性和方法可以遍历整个文档树。 在生成DOM文档树之后,可以通过属性、标签名称来查找所需的元素。 然后,就可以通过XPath来定位所述元素,即所需的数据。一旦从网页中 提取到用户所需的数据,就可以将其基于XPath的路径表达式记录下来, 并且在未来需要时通过所记录的XPath路径表达式再次定位和访问所述数 据。
然而,由于网页的前述的高度动态特性,大多数网页是动态生成的, 所以网页中的内容常常是变化的。并且,许多网站会定期对其网页进行更 新,诸如添加、修改或删除现有网页的内容、格式或布局。而这些更新或 改变通常将会影响到网页中的数据的XPath的路径表达式,从而当用户试 图通过之前记录的XPath路径表达式来访问所需数据时,就可能无法找到 数据或者定位到错误的数据。因此,上述的基于XPath来访问和提取数据 的方法不是自适应的。
因此,为了在网页动态变化时从中提取所需数据和功能,一大挑战是 精确地定位非结构化的或者半结构化的数据。由此,存在对于下述技术的 需要,所述技术用于在动态的网页中不管各种网页内容的变化而基于 XPath来定位所需的Web内容。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810108874.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:集装箱码头堆场优化系统
- 下一篇:加热烹调器





