[发明专利]基于WDB特征和用户查询请求的WEB数据库选择方法无效
申请号: | 201010105984.1 | 申请日: | 2010-02-04 |
公开(公告)号: | CN101814085A | 公开(公告)日: | 2010-08-25 |
发明(设计)人: | 林培光 | 申请(专利权)人: | 林培光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 wdb 特征 用户 查询 请求 web 数据库 选择 方法 | ||
技术领域
本发明涉及一种计算机应用技术或Web数据管理及Deep Web等研究领域,具体地说是一种基于WDB特征和用户查询请求的WEB数据库选择方法。
背景技术
随着Web数据库的广泛应用,Web正在加速地“深化”。Deep Web中蕴藏了更加丰富、“专业”(专注于某一领域)的信息,其数据量也在成倍增长。因此,实现对Deep Web中信息的检索和利用已成为当前数据库领域研究的热点之一。为了使用户能够有效地利用Deep Web中的海量信息,研究者们展开了对Deep Web数据集成的研究,即建立一个Deep Web数据集成系统。该系统可以为用户提供一个集成查询接口,并把各个Web数据库返回的结果合并到一个统一的模式下。至今,在该研究领域已经取得了若干成果,比如查询接口集成、Web数据库的分类、Web数据的抽取等。
由于Deep Web的规模巨大,使得Deep Web数据集成系统中会集成上百甚至上千个Web数据库,极大地超过了传统数据集成系统中数据源的数量。同时,由于对Web数据库的访问只能通过其提供的查询接口,如果对数据集成系统中的所有Web数据库进行逐个检索,不仅会产生很多无效的检索,降低系统的效率,同时也可能会返回大量重复数据,为后期的数据处理增加了复杂度。例如针对用户的某个查询请求:(1)有些Web数据库并不满足该查询,无须对其查询;(2)有些Web数据库之间存在着较大的冗余,只需选择其中1个或几个查询。因此,为了提高系统的工作效率,需要针对用户的查询请求选择合适的数据库进行查询,即选择满足如下条件的Web数据库进行查询:
(1)与用户查询请求相关。为满足该条件,可以借鉴传统搜索引擎的做法,生成Web数据库的特征。由于用户查询是基于Web数据库提供的查询接口进行的,因此该特征库的建立需要结合查询接口的相关特征。获取Web数据库特征后,通过构造基于用户查询请求与Web数据库特征的相关度算法计算当前查询请求与Web数据库的相关度;
(2)返回的有效数据尽可能多。为满足该条件,最好的方案是针对每一个Web数据库和用户的每个查询请求,都能得到一个反映数据库可能返回的数据量大小的数据,以便获取各Web数据库针对本次查询返回的数据量对比;与此相对应,理想情况下,需要在Web数据库的特征中添加能够反映针对每个查询请求可能返回的数据量(或数据百分比)的特征;
(3)选择的各数据库之间的冗余尽可能小。为满足该条件,需要能够基于Web数据库的特征建立同类数据库之间冗余度矩阵。
综合以上分析,需要建立一个基于Web数据库查询接口的Web数据库特征表示机制;并且基于该特征,可以方便地计算当前用户查询请求与该数据库之间的相关度、可能返回的数据量以及针对当前请求的不同数据库之间的冗余度。然而,要获取Web数据库的特征,必然要基于该数据库的真实数据或提取一定的数据样本,Web存在大量的数据源,信息冗余问题非常严重,如何解决信息冗余、做好记录去重成为信息集成成败的关键。若可以通过较少的数据源,找到领域全集,则可以有效减轻信息冗余问题的困扰。选择一个好的数据源选择算法显得尤为重要,过去十年间,已经出现了很多数据源选择算法,包括GLOSS、gGlOSS/vGLOSS、CORI等。其中CORI算法中,数据源的特征表示包括term及其对应的词频。同时Ipeirotis等提出了基于主题分类的数据源选择算法,该方法将所有的待选数据源依照已有的主题层次进行分类,相同分类主题的数据源所对应的近似内容摘要描述通常很相似,但是同一个术语很可能在一个数据源中是低频术语,而在另一个数据源中是高频的。因此,可以使用具有相同分类主题的数据源的近似内容摘要来互相补充,获得术语的覆盖度更好的近似内容摘要描述。
以上工作为web数据库的选择奠定了基础,通过应用合适的数据源选择算法找到冗余度低的数据源。但是近年来,用户个性化研究是信息检索领域的热点问题,同样数据库提供的信息应尽可能满足用户的需求,且不同的数据类型有不同的特征表示与抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林培光,未经林培光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010105984.1/2.html,转载请声明来源钻瓜专利网。