[发明专利]一种基于语义的本地文档检索方法无效
| 申请号: | 200710041649.8 | 申请日: | 2007-06-06 |
| 公开(公告)号: | CN101059806A | 公开(公告)日: | 2007-10-24 |
| 发明(设计)人: | 顾君忠;杨静;李子成;张伟;孙双;刘峰;黄文蓓;董晓春;王锋 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 上海德昭知识产权代理有限公司 | 代理人: | 程宗德;石昭 |
| 地址: | 200062*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种基于语义的本地文档检索方法,属于信息检索的技术领域。传统的LSA方法,基于词袋模型,很难在概念层次上进行扩展,在语义层面上存在很多的信息丢失。本发明采用的检索方法是:首先按照传统的LSA方法对本地文档进行索引,然后根据本体对查询语句中出现的概念进行语义扩展,再根据查询及其扩展概念生成查询向量,向量的值会考虑查询概念和扩展概念的相似度,所以在一定程度上弥补了传统的LSA方法在语义上的缺失。本发明的重要意义是:对非结构化的文档信息科学的索引和有效的检索;实现对非结构化信息的随时随地的检索,帮助用户方便及时地获得自己需要的信息。 | ||
| 搜索关键词: | 一种 基于 语义 本地 文档 检索 方法 | ||
【主权项】:
1、一种基于语义的本地文档检索方法需要在以下的硬件环境中实现:该硬件环境含有客户端、服务器和有线网络或无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,该方法包括两个过程:一、在进行检索前需要做准备工作,即需要根据传统的LSA算法对文档建立索引以及建立领域本体和计算本体中概念的相似度:第1步,对本地需要检索的非格式化文档,根据传统的LSA方法建立索引,过程如下:第1.1步:对于本地的文档集,通过分词工具对文档集合的每篇文档内容进行分词,同时对于每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,即计算出tfij,分词工具是海量集团的中文分词工具,http://www.hylanda.com/;第1.2步:根据第1.1步的结果,可以形成关键词-文档词频矩阵,矩阵的行表示的是关键词在不同文档中的词频特征,矩阵的列表示的是文档中所有词的词频特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频;第1.3步:根据第1.2步的结果,计算出每个词在整个文档集中出现该词的文档的个数,即ni;第1.4步:根据第1.3步的结果,同时根据log2(N/ni)计算出每个词的全局权重,即idfi,对数的真数由1+N/ni变为N/ni,这种变化的意义基于以下假设:如果所搜索的整个文本集中每一篇文本都出现第i个关键词,那么第i个关键词在区分这些文本所能贡献的力量将趋近于0,表现在公式中就是对于所有的i都有wij=0;第1.5步:由第1.1步和第1.4步,根据公式wij=tfij*idfi=tfij*log2(N/ni)计算出每个词的权重;第1.6步:索引过程到第1.5步结束,将第1.5步得到的关键词-文档权重矩阵At×d作为特征矩阵保存,该矩阵的行表示的是关键词在不同文档中的权重特征,矩阵的列表示的是文档中所有词的权重特征。矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的权重;第2步,根据人类对世界的认识,对概念的基本分类,利用建立本体的工具,建立一个知识本体,它是对概念在语义层次上的理解,本体的建立可以找专家建立;第3步,计算出本体中所有概念之间的语义相似度,计算得方法是:第3.1步,计算本体概念树每个概念的深度。深度的计算方法是:对于本体概念树中概念N,它的深度定义为:Depth(N)=Depth(parentOf(N))+1,其中,根节点的深度为0,即若root表示本体概念树的根,则Depth(root)=0;patentOf(N)表示N的父亲概念或父亲节点;第3.2步,根据第3.1步计算本体中任意两个概念之间的长度,计算方法是:对于本体概念树中任意两个节点N1、N2,则它们之间的长度定义为:Length(N1,N2)=Depth(N1)+Depth(N2)-2*Depth(com_parent(N1,N2)),com_parent(N1,N2)表示N1和N2的公共父亲概念或公共父亲节点;第3.3步,根据第3.1步计算本体中任意节点的高度,计算方法是:对于本体概念树中任意节点N,它的高度定义为:Height(N)=Max(Depth(childOf(N))),其中Max表示求最大值,childOf(N)表示N的所有子孙,即:N的高度应该是其所有子孙的深度的最大值,也就是从N的任意一个子孙到N距离的最大值;第3.4步,根据第3.1步、第3.2步、第3.3步计算本体中任意两个节点之间的语义相似度,计算方法是:对本体概念树中任意两个节点N1,N2之间的语义相似度的定义为SN(N1,N2): 第3.5步,根据第3.4步计算结果,将所有概念两两之间的相似度保存;二、基于语义的本地文档检索的操作步骤:第一步,用户通过便携式设备如PDA或个人电脑,即PC,通过设计的界面向服务器提出查询请求,查询请求是一个以自然语言形式描述的语句,PDA将该语句以XML文件的形式传送给服务器,服务器接收到该XML文件后,解析XML文件内容,获得查询请求;第二步,服务器利用分词工具对查询请求即查询语句分词,提取其中的名词、代词、处所词、人名、地名、机构团体名、其它专名,将它们作为查询概念;第三步,根据本体和第二步,对查询概念进行扩展,得到查询概念的扩展概念以及它们的相似度,扩展的方法如下:根据准备工作第3步得到的概念之间的相似度对由第二步获得的查询概念进行扩展,扩展的方法是定义一个阈值θ,凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念;第四步,根据第三步和准备工作中准备的关键词-文档矩阵对应的关键词生成查询向量q,如果关键词是查询概念则其值取1,如果关键词是查询概念的扩展概念,则其值是查询概念和该概念之间的相似度;除此之外,向量中对应分量的值取0;第五步,对关键词-文档矩阵进行奇异值分解(SVD),即 然后A将分解后的矩阵降稚到K维,即 降维的方法是:如果 则k=j,其中0<α≤1;σi是非0的奇异值,r为关键词-文本矩阵分解后,中间矩阵的秩,α反映了对原始矩阵信息量的保持程度,例如α=0.7就是保留了原始矩阵70%的信息而去除了30%的信息(可能是噪声);第六步,根据第四步和第五步,将查询向量q变化到K维空间,向量变化空间的方法是: 其中q*是变化后的K维空间向量,q是原始查询向量,Tk是降维后A的左奇异向量矩阵(即Tt×t的前t行K列),SK是降维后A的奇异值矩阵(即St×d的前K行K列);第七步,根据第六步,计算降维后的查询向量和每一篇文档对应向量(即D的每一个K维行向量)的相似度,并根据相似度大小排序,相似度越大排的越靠前,向量相似度的计算方法是经典的Cos夹角的计算方法,具体是: 其中,q*为查询向量,dj为第j个文本向量,k为语义空间的维数,wim为q*的第m维权值,wjm 为dj的第m维的权值,这样就可以计算查询向量q*与每篇文本向量相似度,把相似度高于阈值的文本按相似度大小从高到低排列文本,再将该检索结果返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710041649.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能热水空调器
- 下一篇:生血活血枸杞饮料





