[发明专利]一种基于语义的本地文档检索方法无效

专利信息
申请号: 200710041649.8 申请日: 2007-06-06
公开(公告)号: CN101059806A 公开(公告)日: 2007-10-24
发明(设计)人: 顾君忠;杨静;李子成;张伟;孙双;刘峰;黄文蓓;董晓春;王锋 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 上海德昭知识产权代理有限公司 代理人: 程宗德;石昭
地址: 200062*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于语义的本地文档检索方法,属于信息检索的技术领域。传统的LSA方法,基于词袋模型,很难在概念层次上进行扩展,在语义层面上存在很多的信息丢失。本发明采用的检索方法是:首先按照传统的LSA方法对本地文档进行索引,然后根据本体对查询语句中出现的概念进行语义扩展,再根据查询及其扩展概念生成查询向量,向量的值会考虑查询概念和扩展概念的相似度,所以在一定程度上弥补了传统的LSA方法在语义上的缺失。本发明的重要意义是:对非结构化的文档信息科学的索引和有效的检索;实现对非结构化信息的随时随地的检索,帮助用户方便及时地获得自己需要的信息。
搜索关键词: 一种 基于 语义 本地 文档 检索 方法
【主权项】:
1、一种基于语义的本地文档检索方法需要在以下的硬件环境中实现:该硬件环境含有客户端、服务器和有线网络或无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,该方法包括两个过程:一、在进行检索前需要做准备工作,即需要根据传统的LSA算法对文档建立索引以及建立领域本体和计算本体中概念的相似度:第1步,对本地需要检索的非格式化文档,根据传统的LSA方法建立索引,过程如下:第1.1步:对于本地的文档集,通过分词工具对文档集合的每篇文档内容进行分词,同时对于每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,即计算出tfij,分词工具是海量集团的中文分词工具,http://www.hylanda.com/;第1.2步:根据第1.1步的结果,可以形成关键词-文档词频矩阵,矩阵的行表示的是关键词在不同文档中的词频特征,矩阵的列表示的是文档中所有词的词频特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频;第1.3步:根据第1.2步的结果,计算出每个词在整个文档集中出现该词的文档的个数,即ni;第1.4步:根据第1.3步的结果,同时根据log2(N/ni)计算出每个词的全局权重,即idfi,对数的真数由1+N/ni变为N/ni,这种变化的意义基于以下假设:如果所搜索的整个文本集中每一篇文本都出现第i个关键词,那么第i个关键词在区分这些文本所能贡献的力量将趋近于0,表现在公式中就是对于所有的i都有wij=0;第1.5步:由第1.1步和第1.4步,根据公式wij=tfij*idfi=tfij*log2(N/ni)计算出每个词的权重;第1.6步:索引过程到第1.5步结束,将第1.5步得到的关键词-文档权重矩阵At×d作为特征矩阵保存,该矩阵的行表示的是关键词在不同文档中的权重特征,矩阵的列表示的是文档中所有词的权重特征。矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的权重;第2步,根据人类对世界的认识,对概念的基本分类,利用建立本体的工具,建立一个知识本体,它是对概念在语义层次上的理解,本体的建立可以找专家建立;第3步,计算出本体中所有概念之间的语义相似度,计算得方法是:第3.1步,计算本体概念树每个概念的深度。深度的计算方法是:对于本体概念树中概念N,它的深度定义为:Depth(N)=Depth(parentOf(N))+1,其中,根节点的深度为0,即若root表示本体概念树的根,则Depth(root)=0;patentOf(N)表示N的父亲概念或父亲节点;第3.2步,根据第3.1步计算本体中任意两个概念之间的长度,计算方法是:对于本体概念树中任意两个节点N1、N2,则它们之间的长度定义为:Length(N1,N2)=Depth(N1)+Depth(N2)-2*Depth(com_parent(N1,N2)),com_parent(N1,N2)表示N1和N2的公共父亲概念或公共父亲节点;第3.3步,根据第3.1步计算本体中任意节点的高度,计算方法是:对于本体概念树中任意节点N,它的高度定义为:Height(N)=Max(Depth(childOf(N))),其中Max表示求最大值,childOf(N)表示N的所有子孙,即:N的高度应该是其所有子孙的深度的最大值,也就是从N的任意一个子孙到N距离的最大值;第3.4步,根据第3.1步、第3.2步、第3.3步计算本体中任意两个节点之间的语义相似度,计算方法是:对本体概念树中任意两个节点N1,N2之间的语义相似度的定义为SN(N1,N2): SN ( N 1 , N 2 ) = Depth ( com _ parent ( N 1 , N 2 ) ) Height ( root ) × ( length ( N 1 , N 2 ) + 1 ) ; 第3.5步,根据第3.4步计算结果,将所有概念两两之间的相似度保存;二、基于语义的本地文档检索的操作步骤:第一步,用户通过便携式设备如PDA或个人电脑,即PC,通过设计的界面向服务器提出查询请求,查询请求是一个以自然语言形式描述的语句,PDA将该语句以XML文件的形式传送给服务器,服务器接收到该XML文件后,解析XML文件内容,获得查询请求;第二步,服务器利用分词工具对查询请求即查询语句分词,提取其中的名词、代词、处所词、人名、地名、机构团体名、其它专名,将它们作为查询概念;第三步,根据本体和第二步,对查询概念进行扩展,得到查询概念的扩展概念以及它们的相似度,扩展的方法如下:根据准备工作第3步得到的概念之间的相似度对由第二步获得的查询概念进行扩展,扩展的方法是定义一个阈值θ,凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念;第四步,根据第三步和准备工作中准备的关键词-文档矩阵对应的关键词生成查询向量q,如果关键词是查询概念则其值取1,如果关键词是查询概念的扩展概念,则其值是查询概念和该概念之间的相似度;除此之外,向量中对应分量的值取0;第五步,对关键词-文档矩阵进行奇异值分解(SVD),即 A t × d = T t × t · S t × d · D d × d T , 然后A将分解后的矩阵降稚到K维,即 A k = T t × t · diag ( σ 1 , σ 2 , . . . σ k , 0 , . . . , 0 ) · D d × d T , 降维的方法是:如果 Σ i = 0 j σ t α × Σ t = 0 r σ t 则k=j,其中0<α≤1;σi是非0的奇异值,r为关键词-文本矩阵分解后,中间矩阵的秩,α反映了对原始矩阵信息量的保持程度,例如α=0.7就是保留了原始矩阵70%的信息而去除了30%的信息(可能是噪声);第六步,根据第四步和第五步,将查询向量q变化到K维空间,向量变化空间的方法是: q * = q T T K S K - 1 其中q*是变化后的K维空间向量,q是原始查询向量,Tk是降维后A的左奇异向量矩阵(即Tt×t的前t行K列),SK是降维后A的奇异值矩阵(即St×d的前K行K列);第七步,根据第六步,计算降维后的查询向量和每一篇文档对应向量(即D的每一个K维行向量)的相似度,并根据相似度大小排序,相似度越大排的越靠前,向量相似度的计算方法是经典的Cos夹角的计算方法,具体是: sim ( q * , d j ) = Σ m = 1 k w im × w jm ( Σ m = 1 k w im 2 ) · ( Σ m = 1 k w jm 2 ) 其中,q*为查询向量,dj为第j个文本向量,k为语义空间的维数,wim为q*的第m维权值,wjm 为dj的第m维的权值,这样就可以计算查询向量q*与每篇文本向量相似度,把相似度高于阈值的文本按相似度大小从高到低排列文本,再将该检索结果返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710041649.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top