[发明专利]用于聚集来自多个web站点的数据的系统和方法无效
申请号: | 200980156851.2 | 申请日: | 2009-12-27 |
公开(公告)号: | CN102317937A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 迈克尔·鲁巴诺维奇;德米特里·巴比斯基 | 申请(专利权)人: | 弗诺瓦有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 周靖;郑霞 |
地址: | 以色*** | 国省代码: | 以色列;IL |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 聚集 来自 web 站点 数据 系统 方法 | ||
本申请要求2008年12月31日提交的第61/193,862号美国临时申请的优先权,该申请特此通过引用被并入,好像在本文完全阐述的一样。
发明领域
本发明涉及从web站点检索信息,并且特别是涉及来自多个web站点的信息的自动聚集,并且可选地对这样的信息排名。
发明背景
互联网已经成为用于搜索信息的主要资源。提供服务或有关多个主题的信息的web站点已变得非常普及。这样的web站点可以是例如提供汽车销售的站点、提供房地产的房地产站点或使用户能够得到有关他所关注的人的联系信息的社交网络站点。
不幸的是,寻找对于某个项目如汽车的信息的个人例如必须从不同站点检索信息并人工地组合这样的信息。此外,一些信息可能是多余的;例如,有关同一房地产的信息可能出现在一个以上的房地产站点上。
一些web站点已经与相关web站点建立了协议,以从这些站点收集信息并在另一站点上显示此信息。不幸的是,由于操作人工地完成并且基于协议,从中收集信息的站点的数量是有限的。
发明概述
背景技术没有教导或建议完全自动化的过程,其基于对从相关web站点收集的信息进行的几何和语义分析的结合并且提供在一个站点中收集的相关信息。
在本发明的至少一些实施方式中,本发明通过提供从多个相关站点收集信息、在几何上和语义上分析信息以及将相关信息储存在数据库中用于日后使用的系统和方法来克服背景技术的不足。结合语义分析的几何分析与仅仅语义分析相比提供更准确和有效的搜索。
根据本发明的一个实施方式,系统自动地且优选地定期查询相关站点并分析从每个站点检索的结果。这样的结果可以从HTML/XML页面或从任何其他文本格式的页面检索到。根据这个实施方式,浏览器将其渲染组成器引擎应用在HTML文档上,以例如可选地通过生成文档对象模型(DOM)树来确定文档的一个或多个几何特性。这种树的几何特性被优选地分析,以确定文档的布局。然后根据文档布局,优选地从文档检索信息。可选地,也应用语义分析。
根据本发明的又一实施方式,提供用于将通过这样的几何分析获得的信息排名的方法。该方法可选地以单独地且分开地将所分析的文档内包含的信息的一个或多个记录或单元排名而不是仅将完整的文档本身排名为特征。所谓“记录”是指从关联于或形成网站“后台”部分的信息的数据库或其他储存器获得或得到的信息的任何单元,例如记录可以是数据库内列表的条目。信息单元关于数据库中储存的数据的域优选地形成连贯的整体。作为非限制性实例,对于房地产数据库,记录可选地是列表中的房地产条目(例如用于建筑物、办公室、公寓等的出售或出租)。这个实施方式使相关信息能够被排名,而不考虑文档本身及其排名。当信息单元是所关注的和/或当信息单元可存在于“深网”上时,这样的排名是有用的,其中信息单元是被动态地创建的web页面的一部分。
如前所述,web页面通常包含多个信息。诸如有关广告等的信息的部分不包括相关信息。发现相关信息可以通过基于内容和上下文相关性的搜索的语义分析例如通过搜索关键词来完成。发现相关信息也可以通过基于页面的布局和基于关于相关信息的位置的假设或者基于两者组合的几何分析来完成。不幸的是,在本领域中不存在基于相关信息的位置的预先确定的描述和基于这样的几何分析与语义分析的结合来提供几何分析的系统和方法。在至少一些实施方式中,在本发明的许多重要特征之中的是它克服了已知技术的这些缺点。
于2006年10月24日提交、2008年4月24日公布的第2008/0098300号美国申请教导用于通过几何分析渲染页面从web页面获取相关信息的系统和方法。然而,这个申请没有具体地教导或建议如何几何分析页面以及如何将语义分析与几何分析结合。
于2005年4月25日提交、2006年7月20日公布的第2006/0161569号美国专利申请教导通过搜索上下文的相关性来识别树结构中所关注的节点;然而,这项专利没有教导或建议如何通过分析页面的几何结构来检查web页面中数据的相关性。
除非另有规定,本文所使用的所有技术和科学术语具有与本发明所属领域的普通技术人员所普遍理解的相同含义。本文提供的材料、方法和实例仅是说明性的而没有被规定是限制性的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗诺瓦有限公司,未经弗诺瓦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980156851.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种采用螺旋分离调压的天燃气发电装置
- 下一篇:隧道中隔墙施工专用机械