[发明专利]一种可定制的Web信息集成方法及系统有效
| 申请号: | 201010554432.9 | 申请日: | 2010-11-19 |
| 公开(公告)号: | CN102004777A | 公开(公告)日: | 2011-04-06 |
| 发明(设计)人: | 魏峻;于翔斐;王帅;杨燕 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 冯艺东 |
| 地址: | 100190*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 定制 web 信息 集成 方法 系统 | ||
1.一种可定制的Web信息集成方法,包括以下步骤:
1)由用户指定不同服务数据源的URL集合;
2)根据服务数据源类型的不同,使用数据抽取器从服务数据源获取记录集合,由用户指定数据字段,生成对应数据源的抽取规则;
3)根据上述生成的抽取规则从不同数据源获取数据并整理为结果记录集合;
4)使用过滤器过滤结果记录集合,将集成数据输出显示。
2.如权利要求1所述的方法,其特征在于,所述步骤1)每个URL所标识的服务,提供的数据结构是相同的。
3.如权利要求1所述的方法,其特征在于,所述步骤2)生成抽取规则后,进一步使用过滤器进行过滤。
4.如权利要求1所述的方法,其特征在于,所述步骤2)数据抽取器利用无指导的数据抽取算法从服务数据源获取记录集合。
5.如权利要求1所述的方法,其特征在于,所述步骤3)采用的数据抽取算法,包括步骤:
5-1)去掉服务数据源页面上无关的节点后表示为dom树,使用数据区域集合挖掘算法作用于dom树;
5-2)在找出的节点集合上做层次聚类;
5-3)计算数据区域的rank值,取值最大的为正确数据区域。
6.如权利要求1或3所述的方法,其特征在于,所述过滤器为基于关键字的过滤或基于重复键值的过滤。
7.一种可定制的Web信息集成系统,其特征在于,包括服务调用模块、服务组合模块、个性化输出模块,其中:
所述服务调用模块包括内置的数据抽取器,该模块根据服务数据源类型的不同,自动调用内置的数据抽取器,将从不同数据源得到的数据统一整理为Web数据记录集合,传递给服务组合模块;
所述服务组合模块包括过滤器,用于汇总和过滤已抽取的Web数据;
所述输出模块设包括不同输出方式的插件,该模块从服务组合模块取得数据并调用相应插件,分析并加入显示元素后将数据显示。
8.如权利要求7所述的系统,其特征在于,还包括缓存管理模块,用于负责服务调用和组合两个层面的数据缓存,服务调用层的缓存对象为从单个Web服务获取的全部字段;服务组合层的缓存对象为单个用户从组合服务获取的经过聚合、过滤后的字段。
9.如权利要求7所述的系统,其特征在于,还包括基础服务模块,用于提供基础的服务,其中包含单点登录服务,用于需要用户认证之后才能抽取数据的用例场景中。
10.如权利要求7所述的系统,其特征在于,所述插件包括若干标准接口和JSP模板页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010554432.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能机组吸料管
- 下一篇:具动态显示的电子表格系统及其方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





