[发明专利]基于WDB特征和用户查询请求的WEB数据库选择方法无效

申请号：	201010105984.1	申请日：	2010-02-04
公开（公告）号：	CN101814085A	公开（公告）日：	2010-08-25
发明（设计）人：	林培光	申请（专利权）人：	林培光
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	250014 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 wdb 特征用户查询请求 web 数据库选择方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于WDB特征和用户查询请求的WEB数据库选择方法，其特征在于，包括：1)WDB查询接口特征抽取方法；2)基于WDB特征的WDB和用户查询的相关度计算；3)满足用户查询的数据量估计；4)基于WDB特征的冗余度估计；5)基于WDB特征和用户查询的数据源的选择方法，具体步骤如下：

1)WDB查询接口特征表示和抽取方法

将WDB查询接口提交的数据类型分为文本型数据、数值型数据、日期型数据和分类型数据，其中：由于日期型数据和数值型数据都具有连续性特点，因此统一归并为数值数据；其它离散型数据按分类属性处理。

(1)基于词频的文本型属性的特征表示

在各种Web数据库查询接口中，包含文本属性的输入字段占有绝对多数，包括图书搜索中的书名、出版社名称、作者，职位搜索中的职位名称、公司名称、职位说明，这些属性不仅是文本属性，而且由于Web数据库多数都是关系数据库，其中描述的内容多为各种实体，因此这种数据库中的文本属性具有以下特点：

①Web数据库中的文本具有极强的领域相关性，且多为各种实体的名称、属性，具有自身的领域的特点；

②Web数据库中的文本多以自然语言中的实体Entity为主，大多不属于中文普通词汇的范畴，但他们在语料库中统计出来的词频远远低于计算机类型图书数据库中的词频；

因此，借鉴中文文本分类中的文档特征表示方法，给出Web数据库文本特征的表示方法，如以下公式所示：

Attr_text＝<tf₁，tf₂，...tf_n> (1)

其中，Attr_text表示一个文本属性，tf_i(1≤i≤n)表示第i个词的词频，n为针对文本属性的所有文本分词并去掉停用词后的关键词个数；

(2)基于正态分布的数值型属性的特征表示

在Web数据库的查询接口中，数值型属性虽然不多，但也有一定的数量，包括图书搜索的价格、人才网站中的招聘人数，鉴于数值属性具有的连续性特点，且正态分布具有强大的普适性，采用正态分布的期望和偏差表示数值属性的特征，即

查询接口中的某属性对应WDB中的一个字段是数值属性，则通过其样本数据获取其均值μ和方差σ，进而得到数值属性的特征表示，(2)式如下：

Attr_data＝N(μ，σ²) (2)

(3)基于统计的分类型属性的特征表示

对于分类属性，采用根据查询接口属性的分类统计样本中同类属性的记录数与总记录数的比值来表示，如以下公式所示：

(4)Web数据库特征的形式化表示

基于以上三类属性的表示方法，即一个Web数据库的特征Character_WDB是一个特征向量，该向量的每个分量为这个数据库的查询接口的n个属性所对应的WDB字段的特征，Web数据库特征的形式化表示方法，如以下公式所示：

Character_WDB＝<Attr₁，Attr₂，...，Attr_n> (4)

2)基于WDB特征的WDB和用户查询的相关度计算

首先确定WDB与用户查询的相关度，Web数据库与用户查询的相关度是指当前用户查询请求与当前Web数据库的相互关联的程度，其取值是0到1之间的值，其值越大，说明当前查询请求与当前数据库越相关；

对于用户通过Web查询接口发出的查询请求，如以下公式所示：

request＝{Attr₁＝key₁，Attr₂＝key₂，...，Attr_n＝key_n}(5)

其中，Attr_i代表查询接口上的某个属性，key_i代表针对当前属性的查询关键字，1≤i≤n。key_i是文本、数字或用户选择的某个类别，针对以上给出的三类属性，分别给出相关度计算的方法；其中：

(1)文本属性的相关度计算

若当前用户对Attr_i属性所输入的关键字key_i属于文本属性，则首先按照样本数据库的分词方法对key_i进行分词，然后按照公式(6)计算该文本属性的相关度；

relatext=Σjtfwordjsum(all words)---(6)]]>

其中，rela_text表示当前文本属性关键字与Web数据库对应字段的相关度；表示对key_i分词后所得到的某个词的词频；sum(all words)表示对样本数据中当前字段所有记录分词后的所有词的词频；

(2)数值属性的相关度计算

当前用户对Attr_i属性所输入的关键字key_i属于数值属性，由于公式(2)中已经得到当前属性的正态分布，则只需将当前数值key_i作为参数代入正态分布函数中，即获取当前数值key_i相对该正态分布的概率，将该概率定义为数值属性与Web数据库的相关度，如以下公式所示；

simdata=f(keyi;μ,σ)=1σ2πexp-(keyi-μ)22σ2---(7)]]>

(3)分类属性的相关度计算

由于分类属性在执行查询时是按照严格相等的方式执行的，因此定义分类属性的相关度等价于该属性的特征，如以下公式所示；

rela_class＝Attr_class (8)

综上，给出当前查询请求与Web数据库的相关度定义，如以下公式所示；

relarequest=Σi=1nαi×relaattri]]>(其中)(9)

其中，α_i表示第i个查询接口属性的权值，表示第i个属性与Web数据库的相关度；

3)满足用户查询的数据量估计

理想情况下，当前查询请求只有一个查询条件，且能够得到Web数据库的大小size_WDB以及当前查询请求所能够返回数据的百分比percent_attr，则得到该查询可能返回的数据量，如10式中的第一个等式所示，web数据库大小的估计已有相关的研究工作，对于返回数据的百分比，以当前查询请求与Web数据库特征的相关度作为其近似值，其原因是对数据量估计的目的仅用于对各数据源进行排序；如(10)式所示；

size_attr＝size_WDB×percent_attr (10)

＝size_WDB×sim_attr

一般情况下，当用户输入多个查询条件时，多个查询条件之间一般是and的关系，但以and连接查询返回的数据量较少时，多数数据库将减弱查询条件以返回更多数据，因此，不失一般性，定义满足用户查询的数据量为：所有查询条件中，返回数据最多的单个查询条件所返回的数据量，如以下公式所示；

sizerequest=sizeWDB×maxi(percentattri)]]>(11)

=sizeWDB×maxi(simattri)]]>

4)基于WDB特征的冗余度估计

针对用户查询的Web数据库之间的冗余度是指当前用户请求提交后，两个数据库返回的重复数据的数量或百分比，某个查询针对WDB₁返回的查询结果中包含n₁条数据，针对WDB₂返回的结果中包含n₂条数据，其中包含的重复数据个数为n₁₂，则n12为两个数据库之间的冗余度，由以下公式表示为：

redundantWDB1=n12/n1×100%]]>

(12)

redundantWDB2=n12/n2×100%]]>

通过以上公式看出，redundant_WDB的值越大，说明当前数据库的冗余度越大，其利用价值越低，而要获得两个数据库之间的冗余度，就要获取当前Web数据库满足当前查询的数据量以及两个数据库返回的重复数据的个数，满足当前查询的数据量已在前文说明，而重复数据的数量虽然针对真实数据库或样本数据进行预查询，分别统计返回的数据个数与重复数据个数，但这么做显然工作量太大，而在查询更多数据库、返回更多数据时，将消耗更多的计算机时间，因此，采用基于WDB特征的整体重复度近似表示其数据的冗余度；计算公式如下：

(1)文本属性的冗余度计算

对于文本属性，采用Web数据库相同属性中相同关键词的词频总和与该属性所有关键词的词频总和的比值来表示，如以下公式所示；

redundanttext(WDB1,WDB2)=Σi∈{sameKdys}tfiΣj∈{WDB1,text}tfj---(13)]]>

公(29)式中，redundan_text(WDB₁，WDB₂)表示WDB₁相对WDB₂在相同文本属性上的冗余度；sameKeys是指WDB₁和WDB₂两个数据库中同一文本属性中的相同关键字；WDB₁.text是WDB₁数据库中，当前文本属性的所有关键字；tf_i是指关键字i的词频。

(2)数值属性的冗余度计算

在Web数据库的特征表示中，数值型数据被表示成一个正态分布，两个WDB的数值属性所对应的正态分布分别是N(μ₁，σ₁)和N(μ₂，σ₂)，且样本空间中的最小值和最大值分别是min₁、max₁、min₂和max₂，两个正态分布的交叉部分的值为x，则定义两个数值属性的冗余度为两个正态分布的重叠部分所占整体的比例，即min2和max1之间部分所占各自属性的比例，由于正态分布通过变量替换变成标准正态分布，因此直接给出数值属性的冗余度计算公式；如以下公式所示；

redundantdata(WDB1,WDB2)=F1(max1-μ1σ1)-F1(x-μ1σ1)]]>(14)