[发明专利]用于聚集来自多个web站点的数据的系统和方法无效

专利信息
申请号: 200980156851.2 申请日: 2009-12-27
公开(公告)号: CN102317937A 公开(公告)日: 2012-01-11
发明(设计)人: 迈克尔·鲁巴诺维奇;德米特里·巴比斯基 申请(专利权)人: 弗诺瓦有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/22
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 周靖;郑霞
地址: 以色*** 国省代码: 以色列;IL
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 聚集 来自 web 站点 数据 系统 方法
【权利要求书】:

1.一种用于从多个web站点自动聚集数据的方法,包括:

i.从多个相关站点自动地且定期地查询所述数据;

ii分析来自所述查询的结果;

iii.将来自所述结果的相关数据储存在数据库中;以及

iv在用户要求时,从所述数据库检索所述数据。

2.如权利要求1所述的方法,其中,所述分析包括后面是语义分析的几何分析。

3.如权利要求2所述的方法,其中,所述几何分析在结果页面的渲染布局上完成。

4.如权利要求3所述的方法,其中,从所述布局定义一个或多个记录容器。

5.如权利要求4所述的方法,其中,一个记录容器选自所述识别的记录容器。

6.如权利要求5所述的方法,其中,所述选择的记录容器内的记录被识别。

7.如权利要求6所述的方法,其中,所述记录被分成组,每组具有相同的几何图案。

8.如权利要求7所述的方法,其中,来自每个所述组的代表被语义地分析。

9.如权利要求8所述的方法,其中,如果所述语义分析的结果识别相关数据,则所述数据和所述图案被保存在数据库中。

10.如权利要求7所述的方法,其中,在其他页面中具有相同的所述图案的组被认为具有相同的语义结构。

11.如权利要求10所述的方法,其中,来自所述组的数据被获取而没有语义分析。

12.如权利要求1所述的方法,其中,从web站点检索所述聚集的数据。

13.如权利要求4所述的方法,还包括从用户接收查询并比较所述查询与多个记录。

14.如权利要求13所述的方法,还包括根据所述比较所述查询的一个或多个几何特性对多个记录排名。

15.如权利要求14所述的方法,还包括根据“新鲜度”、按照可靠性和/或普及性的源网站的排名、所述记录的完整性或所述网站内的记录的突出度中的一个或多个来对多个记录排名。

16.如权利要求15所述的方法,还包括根据多个加权属性对所述多个记录排名。

17.如权利要求14所述的方法,还包括在所述对所述多个记录的所述排名之前,将所述多个记录划分为一组一个或多个相关记录和一组一个或多个非相关记录,以便对所述多个记录的所述排名仅对所述一组一个或多个相关记录执行。

18.如权利要求17所述的方法,其中,所述将所述多个记录划分包括:

分析所述用户查询以将所述查询分解为多个项目;分析每个记录以将所述记录分解为多个项目;以及比较所述用户查询的所述项目的值和所述记录的所述项目的值。

19.一种用于几何地分析包括数据库查询结果的页面布局的方法,所述方法包括:

a.确定所述布局内的至少一个记录容器;以及

b.将所述记录容器内的记录分成组,每组具有相同的几何图案。

20.如权利要求19所述的方法,其中,从所述布局识别一个或多个记录容器,并且其中,一个记录容器选自所述识别的记录容器。

21.如权利要求20所述的方法,其中,所述记录容器通过使用布局记录的大小关系或者通过推导页面上的最规则的区域来选择。

22.如权利要求21所述的方法,其中,所述选择的记录容器内的矩形被识别。

23.如权利要求22所述的方法,其中,所述识别通过对所述记录容器内部的所述记录排序并通过使用线边界分隔它们来完成。

24.如权利要求23所述的方法,其中,所述记录被分成组,每组具有相同的几何图案。

25.一种用于从多个web站点自动聚集数据的系统,包括:

a.网络爬虫进程,其用于从所提供的相关web站点的列表获取数据;

b.几何分析仪进程,其用于将页面分解成分级的层并找到相关层;

c.语义层,其用于对所述相关层进行文本地分析;以及

d.数据库,其用于储存由所述语义层检索的信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗诺瓦有限公司,未经弗诺瓦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200980156851.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top