[发明专利]一种基于语义的本地文档检索方法无效

申请号：	200710041649.8	申请日：	2007-06-06
公开（公告）号：	CN101059806A	公开（公告）日：	2007-10-24
发明（设计）人：	顾君忠;杨静;李子成;张伟;孙双;刘峰;黄文蓓;董晓春;王锋	申请（专利权）人：	华东师范大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	上海德昭知识产权代理有限公司	代理人：	程宗德;石昭
地址：	200062***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于语义的本地文档检索方法，属于信息检索的技术领域。传统的LSA方法，基于词袋模型，很难在概念层次上进行扩展，在语义层面上存在很多的信息丢失。本发明采用的检索方法是：首先按照传统的LSA方法对本地文档进行索引，然后根据本体对查询语句中出现的概念进行语义扩展，再根据查询及其扩展概念生成查询向量，向量的值会考虑查询概念和扩展概念的相似度，所以在一定程度上弥补了传统的LSA方法在语义上的缺失。本发明的重要意义是：对非结构化的文档信息科学的索引和有效的检索；实现对非结构化信息的随时随地的检索，帮助用户方便及时地获得自己需要的信息。
搜索关键词：	一种基于语义本地文档检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1、一种基于语义的本地文档检索方法需要在以下的硬件环境中实现：该硬件环境含有客户端、服务器和有线网络或无线网络，客户端和服务器连接在有线网络或无线网络上，其特征在于，该方法包括两个过程：一、在进行检索前需要做准备工作，即需要根据传统的LSA算法对文档建立索引以及建立领域本体和计算本体中概念的相似度：第1步，对本地需要检索的非格式化文档，根据传统的LSA方法建立索引，过程如下：第1.1步：对于本地的文档集，通过分词工具对文档集合的每篇文档内容进行分词，同时对于每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计，即计算出tfij，分词工具是海量集团的中文分词工具，http：//www.hylanda.com/；第1.2步：根据第1.1步的结果，可以形成关键词-文档词频矩阵，矩阵的行表示的是关键词在不同文档中的词频特征，矩阵的列表示的是文档中所有词的词频特征，矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频；第1.3步：根据第1.2步的结果，计算出每个词在整个文档集中出现该词的文档的个数，即ni；第1.4步：根据第1.3步的结果，同时根据log2(N/ni)计算出每个词的全局权重，即idfi，对数的真数由1+N/ni变为N/ni，这种变化的意义基于以下假设：如果所搜索的整个文本集中每一篇文本都出现第i个关键词，那么第i个关键词在区分这些文本所能贡献的力量将趋近于0，表现在公式中就是对于所有的i都有wij＝0；第1.5步：由第1.1步和第1.4步，根据公式wij＝tfij*idfi＝tfij*log2(N/ni)计算出每个词的权重；第1.6步：索引过程到第1.5步结束，将第1.5步得到的关键词-文档权重矩阵At×d作为特征矩阵保存，该矩阵的行表示的是关键词在不同文档中的权重特征，矩阵的列表示的是文档中所有词的权重特征。矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的权重；第2步，根据人类对世界的认识，对概念的基本分类，利用建立本体的工具，建立一个知识本体，它是对概念在语义层次上的理解，本体的建立可以找专家建立；第3步，计算出本体中所有概念之间的语义相似度，计算得方法是：第3.1步，计算本体概念树每个概念的深度。深度的计算方法是：对于本体概念树中概念N，它的深度定义为：Depth(N)＝Depth(parentOf(N))+1，其中，根节点的深度为0，即若root表示本体概念树的根，则Depth(root)＝0；patentOf(N)表示N的父亲概念或父亲节点；第3.2步，根据第3.1步计算本体中任意两个概念之间的长度，计算方法是：对于本体概念树中任意两个节点N1、N2，则它们之间的长度定义为：Length(N1，N2)＝Depth(N1)+Depth(N2)-2*Depth(com_parent(N1，N2))，com_parent(N1，N2)表示N1和N2的公共父亲概念或公共父亲节点；第3.3步，根据第3.1步计算本体中任意节点的高度，计算方法是：对于本体概念树中任意节点N，它的高度定义为：Height(N)＝Max(Depth(childOf(N)))，其中Max表示求最大值，childOf(N)表示N的所有子孙，即：N的高度应该是其所有子孙的深度的最大值，也就是从N的任意一个子孙到N距离的最大值；第3.4步，根据第3.1步、第3.2步、第3.3步计算本体中任意两个节点之间的语义相似度，计算方法是：对本体概念树中任意两个节点N1，N2之间的语义相似度的定义为SN(N1，N2)：

SN (N 1, N 2) = \frac{Depth (com_parent (N 1, N 2))}{Height (root) \times (length (N 1, N 2) + 1)};

第3.5步，根据第3.4步计算结果，将所有概念两两之间的相似度保存；二、基于语义的本地文档检索的操作步骤：第一步，用户通过便携式设备如PDA或个人电脑，即PC，通过设计的界面向服务器提出查询请求，查询请求是一个以自然语言形式描述的语句，PDA将该语句以XML文件的形式传送给服务器，服务器接收到该XML文件后，解析XML文件内容，获得查询请求；第二步，服务器利用分词工具对查询请求即查询语句分词，提取其中的名词、代词、处所词、人名、地名、机构团体名、其它专名，将它们作为查询概念；第三步，根据本体和第二步，对查询概念进行扩展，得到查询概念的扩展概念以及它们的相似度，扩展的方法如下：根据准备工作第3步得到的概念之间的相似度对由第二步获得的查询概念进行扩展，扩展的方法是定义一个阈值θ，凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念；第四步，根据第三步和准备工作中准备的关键词-文档矩阵对应的关键词生成查询向量q，如果关键词是查询概念则其值取1，如果关键词是查询概念的扩展概念，则其值是查询概念和该概念之间的相似度；除此之外，向量中对应分量的值取0；第五步，对关键词-文档矩阵进行奇异值分解(SVD)，即

A_{t \times d} = T_{t \times t} \cdot S_{t \times d} \cdot D_{d \times d}^{T},

然后A将分解后的矩阵降稚到K维，即

A_{k} = T_{t \times t} \cdot diag (σ_{1}, σ_{2}, . . . σ_{k}, 0, . . ., 0) \cdot D_{d \times d}^{T},

降维的方法是：如果

Σ_{i = 0}^{j} σ_{t} \geq α \times Σ_{t = 0}^{r} σ_{t}

则k＝j，其中0＜α≤1；σi是非0的奇异值，r为关键词-文本矩阵分解后，中间矩阵的秩，α反映了对原始矩阵信息量的保持程度，例如α＝0.7就是保留了原始矩阵70％的信息而去除了30％的信息(可能是噪声)；第六步，根据第四步和第五步，将查询向量q变化到K维空间，向量变化空间的方法是：

q * = q^{T} T_{K} S_{K}^{- 1}

其中q*是变化后的K维空间向量，q是原始查询向量，Tk是降维后A的左奇异向量矩阵(即Tt×t的前t行K列)，SK是降维后A的奇异值矩阵(即St×d的前K行K列)；第七步，根据第六步，计算降维后的查询向量和每一篇文档对应向量(即D的每一个K维行向量)的相似度，并根据相似度大小排序，相似度越大排的越靠前，向量相似度的计算方法是经典的Cos夹角的计算方法，具体是：

sim (q *, d_{j}) = \frac{Σ_{m = 1}^{k} w_{im} {\times w}_{jm}}{\sqrt{(Σ_{m = 1}^{k} w_{im}^{2}) \cdot (Σ_{m = 1}^{k} w_{jm}^{2})}}

其中，q*为查询向量，dj为第j个文本向量，k为语义空间的维数，wim为q*的第m维权值，wjm 为dj的第m维的权值，这样就可以计算查询向量q*与每篇文本向量相似度，把相似度高于阈值的文本按相似度大小从高到低排列文本，再将该检索结果返回给用户。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华东师范大学，未经华东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710041649.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语义的本地文档检索方法无效

专利文献下载