[发明专利]基于WDB特征和用户查询请求的WEB数据库选择方法无效
申请号: | 201010105984.1 | 申请日: | 2010-02-04 |
公开(公告)号: | CN101814085A | 公开(公告)日: | 2010-08-25 |
发明(设计)人: | 林培光 | 申请(专利权)人: | 林培光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于WDB特征和用户查询请求的WEB数据库选择方法,包括:1)WDB查询接口特征抽取方法;2)基于WDB特征的WDB和用户查询的相关度计算;3)满足用户查询的数据量估计;4)基于WDB特征的冗余度估计;5)基于WDB特征和用户查询的数据源的选择方法,通过上述方法实现了Deep Web领域中的数据集成和提供一个高效的数据检索策略所要解决的首要问题。面对众多的Web数据库,选择最恰当的数据库进行查询,实现以更小的代价返回更多的数据是本发明的目的,针对此目的提出基于Web数据库独立样本的Web数据库特征表示和抽取方法,结合综合考虑查询相关度、返回数据量和数据冗余度三个要素的数据源选择方法,实现基于WDB特征和用户查询请求的WEB数据库选择,较好地满足集成系统的需求。 | ||
搜索关键词: | 基于 wdb 特征 用户 查询 请求 web 数据库 选择 方法 | ||
【主权项】:
1.基于WDB特征和用户查询请求的WEB数据库选择方法,其特征在于,包括:1)WDB查询接口特征抽取方法;2)基于WDB特征的WDB和用户查询的相关度计算;3)满足用户查询的数据量估计;4)基于WDB特征的冗余度估计;5)基于WDB特征和用户查询的数据源的选择方法,具体步骤如下:1)WDB查询接口特征表示和抽取方法将WDB查询接口提交的数据类型分为文本型数据、数值型数据、日期型数据和分类型数据,其中:由于日期型数据和数值型数据都具有连续性特点,因此统一归并为数值数据;其它离散型数据按分类属性处理。(1)基于词频的文本型属性的特征表示在各种Web数据库查询接口中,包含文本属性的输入字段占有绝对多数,包括图书搜索中的书名、出版社名称、作者,职位搜索中的职位名称、公司名称、职位说明,这些属性不仅是文本属性,而且由于Web数据库多数都是关系数据库,其中描述的内容多为各种实体,因此这种数据库中的文本属性具有以下特点:①Web数据库中的文本具有极强的领域相关性,且多为各种实体的名称、属性,具有自身的领域的特点;②Web数据库中的文本多以自然语言中的实体Entity为主,大多不属于中文普通词汇的范畴,但他们在语料库中统计出来的词频远远低于计算机类型图书数据库中的词频;因此,借鉴中文文本分类中的文档特征表示方法,给出Web数据库文本特征的表示方法,如以下公式所示:Attrtext=<tf1,tf2,...tfn> (1)其中,Attrtext表示一个文本属性,tfi(1≤i≤n)表示第i个词的词频,n为针对文本属性的所有文本分词并去掉停用词后的关键词个数;(2)基于正态分布的数值型属性的特征表示在Web数据库的查询接口中,数值型属性虽然不多,但也有一定的数量,包括图书搜索的价格、人才网站中的招聘人数,鉴于数值属性具有的连续性特点,且正态分布具有强大的普适性,采用正态分布的期望和偏差表示数值属性的特征,即查询接口中的某属性对应WDB中的一个字段是数值属性,则通过其样本数据获取其均值μ和方差σ,进而得到数值属性的特征表示,(2)式如下:Attrdata=N(μ,σ2) (2)(3)基于统计的分类型属性的特征表示对于分类属性,采用根据查询接口属性的分类统计样本中同类属性的记录数与总记录数的比值来表示,如以下公式所示:
(4)Web数据库特征的形式化表示基于以上三类属性的表示方法,即一个Web数据库的特征CharacterWDB是一个特征向量,该向量的每个分量为这个数据库的查询接口的n个属性所对应的WDB字段的特征,Web数据库特征的形式化表示方法,如以下公式所示:CharacterWDB=<Attr1,Attr2,...,Attrn> (4)2)基于WDB特征的WDB和用户查询的相关度计算首先确定WDB与用户查询的相关度,Web数据库与用户查询的相关度是指当前用户查询请求与当前Web数据库的相互关联的程度,其取值是0到1之间的值,其值越大,说明当前查询请求与当前数据库越相关;对于用户通过Web查询接口发出的查询请求,如以下公式所示:request={Attr1=key1,Attr2=key2,...,Attrn=keyn}(5)其中,Attri代表查询接口上的某个属性,keyi代表针对当前属性的查询关键字,1≤i≤n。keyi是文本、数字或用户选择的某个类别,针对以上给出的三类属性,分别给出相关度计算的方法;其中:(1)文本属性的相关度计算若当前用户对Attri属性所输入的关键字keyi属于文本属性,则首先按照样本数据库的分词方法对keyi进行分词,然后按照公式(6)计算该文本属性的相关度;rela text = Σ j tf word j sum ( all words ) - - - ( 6 ) ]]> 其中,relatext表示当前文本属性关键字与Web数据库对应字段的相关度;
表示对keyi分词后所得到的某个词的词频;sum(all words)表示对样本数据中当前字段所有记录分词后的所有词的词频;(2)数值属性的相关度计算当前用户对Attri属性所输入的关键字keyi属于数值属性,由于公式(2)中已经得到当前属性的正态分布,则只需将当前数值keyi作为参数代入正态分布函数中,即获取当前数值keyi相对该正态分布的概率,将该概率定义为数值属性与Web数据库的相关度,如以下公式所示;sim data = f ( key i ; μ , σ ) = 1 σ 2 π exp - ( key i - μ ) 2 2 σ 2 - - - ( 7 ) ]]> (3)分类属性的相关度计算由于分类属性在执行查询时是按照严格相等的方式执行的,因此定义分类属性的相关度等价于该属性的特征,如以下公式所示;relaclass=Attrclass (8)综上,给出当前查询请求与Web数据库的相关度定义,如以下公式所示;rela request = Σ i = 1 n α i × rela attr i ]]> (其中
)(9)其中,αi表示第i个查询接口属性的权值,
表示第i个属性与Web数据库的相关度;3)满足用户查询的数据量估计理想情况下,当前查询请求只有一个查询条件,且能够得到Web数据库的大小sizeWDB以及当前查询请求所能够返回数据的百分比percentattr,则得到该查询可能返回的数据量,如10式中的第一个等式所示,web数据库大小的估计已有相关的研究工作,对于返回数据的百分比,以当前查询请求与Web数据库特征的相关度作为其近似值,其原因是对数据量估计的目的仅用于对各数据源进行排序;如(10)式所示;sizeattr=sizeWDB×percentattr (10)=sizeWDB×simattr一般情况下,当用户输入多个查询条件时,多个查询条件之间一般是and的关系,但以and连接查询返回的数据量较少时,多数数据库将减弱查询条件以返回更多数据,因此,不失一般性,定义满足用户查询的数据量为:所有查询条件中,返回数据最多的单个查询条件所返回的数据量,如以下公式所示;size request = size WDB × max i ( percent attr i ) ]]> (11)= size WDB × max i ( sim attr i ) ]]> 4)基于WDB特征的冗余度估计针对用户查询的Web数据库之间的冗余度是指当前用户请求提交后,两个数据库返回的重复数据的数量或百分比,某个查询针对WDB1返回的查询结果中包含n1条数据,针对WDB2返回的结果中包含n2条数据,其中包含的重复数据个数为n12,则n12为两个数据库之间的冗余度,由以下公式表示为:redundant WDB 1 = n 12 / n 1 × 100 % ]]> (12)redundant WDB 2 = n 12 / n 2 × 100 % ]]> 通过以上公式看出,redundantWDB的值越大,说明当前数据库的冗余度越大,其利用价值越低,而要获得两个数据库之间的冗余度,就要获取当前Web数据库满足当前查询的数据量以及两个数据库返回的重复数据的个数,满足当前查询的数据量已在前文说明,而重复数据的数量虽然针对真实数据库或样本数据进行预查询,分别统计返回的数据个数与重复数据个数,但这么做显然工作量太大,而在查询更多数据库、返回更多数据时,将消耗更多的计算机时间,因此,采用基于WDB特征的整体重复度近似表示其数据的冗余度;计算公式如下:(1)文本属性的冗余度计算对于文本属性,采用Web数据库相同属性中相同关键词的词频总和与该属性所有关键词的词频总和的比值来表示,如以下公式所示;redundant text ( WDB 1 , WDB 2 ) = Σ i ∈ { sameKdys } tf i Σ j ∈ { WDB 1 , text } tf j - - - ( 13 ) ]]> 公(29)式中,redundantext(WDB1,WDB2)表示WDB1相对WDB2在相同文本属性上的冗余度;sameKeys是指WDB1和WDB2两个数据库中同一文本属性中的相同关键字;WDB1.text是WDB1数据库中,当前文本属性的所有关键字;tfi是指关键字i的词频。(2)数值属性的冗余度计算在Web数据库的特征表示中,数值型数据被表示成一个正态分布,两个WDB的数值属性所对应的正态分布分别是N(μ1,σ1)和N(μ2,σ2),且样本空间中的最小值和最大值分别是min1、max1、min2和max2,两个正态分布的交叉部分的值为x,则定义两个数值属性的冗余度为两个正态分布的重叠部分所占整体的比例,即min2和max1之间部分所占各自属性的比例,由于正态分布通过变量替换变成标准正态分布,因此直接给出数值属性的冗余度计算公式;如以下公式所示;redundant data ( WDB 1 , WDB 2 ) = F 1 ( max 1 - μ 1 σ 1 ) - F 1 ( x - μ 1 σ 1 ) ]]> (14)+ F 2 ( x - μ 2 σ 2 ) - F 2 ( min 2 - μ 2 σ 2 ) ]]> (3)分类属性的冗余度计算基于WDB的特征表示分类属性的冗余度,以两个数据库中当前分类属性中相同类别的个数与当前数据库中的分类总数的比值表示,如以下公式所示;redundant class ( WDB 1 , WDB 2 ) = count of records in sameClass count of all records in allClassValues - - - ( 15 ) ]]> 综上,给出基于Web数据库特征的冗余度计算公式:如(16)式所示;redundant ( WDB 1 , WDB 2 ) = Σ i β i × redundant attr i ]]> (其中
)(16)其中,redundant(WDB1,WDB2)表示WDB1相对WDB2的冗余度;βi表示第i个查询接口属性的权值,
表示第i个属性的冗余度度;5)基于WDB特征和用户查询的数据源选择方法在获取查询相关度、返回的数据量以及冗余度三项数据的基础上,给出基于Web数据库特征和用户查询的数据源选择方法如下:(1)根据获取的Web数据库的样本数据,获取Web数据库的特征,并表示成公式(4)的形式;(2)根据用户输入的查询请求,结合Web数据库的特征,计算该请求与所有Web数据库的相关度simrequest;(3)根据相关simrequest对所有数据库进行排序,并选择TOP K个数据库作为备选查询数据库,这里记为ChoicedDB1;(4)估计针对当前选择的备选数据库执行查询后的返回结果妇sizerequest,并去除返回数据量小于N的数据库,并将剩余的数据库记为ChoicedDB2;(5)对ChoicedDB2中的数据库,基于其特征计算两两之间的冗余度,并删除其中冗余度值大于R的数据库。至此,剩下的数据库为针对当前用户查询请求的数据源。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林培光,未经林培光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010105984.1/,转载请声明来源钻瓜专利网。