[发明专利]基于WDB特征和用户查询请求的WEB数据库选择方法无效

专利信息
申请号: 201010105984.1 申请日: 2010-02-04
公开(公告)号: CN101814085A 公开(公告)日: 2010-08-25
发明(设计)人: 林培光 申请(专利权)人: 林培光
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山东省济*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 wdb 特征 用户 查询 请求 web 数据库 选择 方法
【说明书】:

技术领域

发明涉及一种计算机应用技术或Web数据管理及Deep Web等研究领域,具体地说是一种基于WDB特征和用户查询请求的WEB数据库选择方法。

背景技术

随着Web数据库的广泛应用,Web正在加速地“深化”。Deep Web中蕴藏了更加丰富、“专业”(专注于某一领域)的信息,其数据量也在成倍增长。因此,实现对Deep Web中信息的检索和利用已成为当前数据库领域研究的热点之一。为了使用户能够有效地利用Deep Web中的海量信息,研究者们展开了对Deep Web数据集成的研究,即建立一个Deep Web数据集成系统。该系统可以为用户提供一个集成查询接口,并把各个Web数据库返回的结果合并到一个统一的模式下。至今,在该研究领域已经取得了若干成果,比如查询接口集成、Web数据库的分类、Web数据的抽取等。

由于Deep Web的规模巨大,使得Deep Web数据集成系统中会集成上百甚至上千个Web数据库,极大地超过了传统数据集成系统中数据源的数量。同时,由于对Web数据库的访问只能通过其提供的查询接口,如果对数据集成系统中的所有Web数据库进行逐个检索,不仅会产生很多无效的检索,降低系统的效率,同时也可能会返回大量重复数据,为后期的数据处理增加了复杂度。例如针对用户的某个查询请求:(1)有些Web数据库并不满足该查询,无须对其查询;(2)有些Web数据库之间存在着较大的冗余,只需选择其中1个或几个查询。因此,为了提高系统的工作效率,需要针对用户的查询请求选择合适的数据库进行查询,即选择满足如下条件的Web数据库进行查询:

(1)与用户查询请求相关。为满足该条件,可以借鉴传统搜索引擎的做法,生成Web数据库的特征。由于用户查询是基于Web数据库提供的查询接口进行的,因此该特征库的建立需要结合查询接口的相关特征。获取Web数据库特征后,通过构造基于用户查询请求与Web数据库特征的相关度算法计算当前查询请求与Web数据库的相关度;

(2)返回的有效数据尽可能多。为满足该条件,最好的方案是针对每一个Web数据库和用户的每个查询请求,都能得到一个反映数据库可能返回的数据量大小的数据,以便获取各Web数据库针对本次查询返回的数据量对比;与此相对应,理想情况下,需要在Web数据库的特征中添加能够反映针对每个查询请求可能返回的数据量(或数据百分比)的特征;

(3)选择的各数据库之间的冗余尽可能小。为满足该条件,需要能够基于Web数据库的特征建立同类数据库之间冗余度矩阵。

综合以上分析,需要建立一个基于Web数据库查询接口的Web数据库特征表示机制;并且基于该特征,可以方便地计算当前用户查询请求与该数据库之间的相关度、可能返回的数据量以及针对当前请求的不同数据库之间的冗余度。然而,要获取Web数据库的特征,必然要基于该数据库的真实数据或提取一定的数据样本,Web存在大量的数据源,信息冗余问题非常严重,如何解决信息冗余、做好记录去重成为信息集成成败的关键。若可以通过较少的数据源,找到领域全集,则可以有效减轻信息冗余问题的困扰。选择一个好的数据源选择算法显得尤为重要,过去十年间,已经出现了很多数据源选择算法,包括GLOSS、gGlOSS/vGLOSS、CORI等。其中CORI算法中,数据源的特征表示包括term及其对应的词频。同时Ipeirotis等提出了基于主题分类的数据源选择算法,该方法将所有的待选数据源依照已有的主题层次进行分类,相同分类主题的数据源所对应的近似内容摘要描述通常很相似,但是同一个术语很可能在一个数据源中是低频术语,而在另一个数据源中是高频的。因此,可以使用具有相同分类主题的数据源的近似内容摘要来互相补充,获得术语的覆盖度更好的近似内容摘要描述。

以上工作为web数据库的选择奠定了基础,通过应用合适的数据源选择算法找到冗余度低的数据源。但是近年来,用户个性化研究是信息检索领域的热点问题,同样数据库提供的信息应尽可能满足用户的需求,且不同的数据类型有不同的特征表示与抽取方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林培光,未经林培光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010105984.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top