[发明专利]一种基于语义的本地文档检索方法无效

专利信息
申请号: 200710041649.8 申请日: 2007-06-06
公开(公告)号: CN101059806A 公开(公告)日: 2007-10-24
发明(设计)人: 顾君忠;杨静;李子成;张伟;孙双;刘峰;黄文蓓;董晓春;王锋 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 上海德昭知识产权代理有限公司 代理人: 程宗德;石昭
地址: 200062*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 本地 文档 检索 方法
【权利要求书】:

1、一种基于语义的本地文档检索方法,需要在以下的硬件环境中实现:该硬件环境含有客户端、服务器和有线网络或客户端、服务器和无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,该方法包括两个过程:

一、在进行检索前需要做准备工作,即需要根据传统的LSA算法对文档建立索引以及建立领域本体和计算本体中概念的相似度:

第1步,对本地需要检索的非格式化文档,根据传统的LSA方法建立索引,过程如下:

第1.1步:对于本地的文档集,通过分词工具对文档集合的每篇文档内容进行分词,同时对于每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,即计算出tfij,tfij表示第i个关键词在第j篇文本中出现的频率,分词工具是海量集团的中文分词工具,该分词工具可从网站http://www.hylanda.com/下载得到;

第1.2步:根据第1.1步的结果,可以形成关键词-文档词频矩阵,矩阵的行表示的是关键词在不同文档中的词频特征,矩阵的列表示的是文档中所有词的词频特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频;

第1.3步:根据第1.2步的结果,计算出每个词在整个文档集中出现该词的文档的个数,即ni,1≤ni≤N;

第1.4步:根据第1.3步的结果,同时根据log2(N/ni)计算出每个词的全局权重,即idfi,对数的真数由1+N/ni变为N/ni,这种变化的意义基于以下假设:当所搜索的整个文本集中每一篇文本都出现第i个关键词,第i个关键词在区分这些文本所能贡献的力量将趋近于0,表现在公式中就是对于所有的i都有wij=0,wij表示第i个关键词在第j篇文本中的权重;

第1.5步:由第1.1步和第1.4步,根据公式wij=tfij*idfi=tfij*log2(N/ni)计算出每个关键词在每篇文本中的权重;

第1.6步:索引过程到第1.5步结束,将第1.5步得到的关键词-文档权重矩阵At×d作为特征矩阵保存,该矩阵的行表示的是关键词在不同文档中的权重特征,矩阵的列表示的是文档中所有词的权重特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的权重;

第2步,根据人类对世界的认识,对概念的基本分类,利用建立本体的工具,建立一个知识本体,它是对概念在语义层次上的理解,本体的建立可以找专家建立;

第3步,计算出本体中所有概念之间的语义相似度,计算的方法是:

第3.1步,计算本体概念树每个概念的深度,深度的计算方法是:对于本体概念树中概念N’,它的深度定义为:Depth(N’)=Depth(parent Of(N’))+1,其中,根节点的深度为0,即root表示本体概念树的根,Depth(root)=0;parent Of(N’)表示N’的父亲概念或父亲节点;

第3.2步,根据第3.1步计算本体中任意两个概念之间的长度,计算方法是:对于本体概念树中任意两个节点N’1、N’2,则它们之间的长度定义为:

Length(N’1,N’2)=Depth(N’1)+Depth(N’2)-2×Depth(com_parent(N’1,N’2)),com_parent(N’1,N’2)表示N’1和N’2的公共父亲概念或公共父亲节点;

第3.3步,根据第3.1步计算本体中任意节点的高度,计算方法是:对于本体概念树中任意节点N’,它的高度定义为:Height(N’)=Max(Depth(child Of(N’))),其中Max表示求最大值,child Of(N’)表示N’的所有子孙,即:N’的高度应该是其所有子孙的深度的最大值,也就是从N’的任意一个子孙到N’距离的最大值;

第3.4步,根据第3.1步、第3.2步、第3.3步计算本体中任意两个节点之间的语义相似度,计算方法是:对本体概念树中任意两个节点N’1,N’2之间的语义相似度的定义为SN(N’1,N’2):SN(N1,N2)=Depth(com_parent(N1,N2))Height(root)×(length(N1,N2)+1);]]>

第3.5步,根据第3.4步计算结果,将所有概念两两之间的相似度保存;

二、基于语义的本地文档检索的操作步骤:

第一步,用户通过便携式设备通过设计的界面向服务器提出查询请求,便携式设备是PDA或个人电脑,即PC,查询请求是一个以自然语言形式描述的语句,PDA或PC将该语句以XML文件的形式传送给服务器,服务器接收到该XML文件后,解析XML文件内容,获得查询请求;

第二步,服务器利用分词工具对查询请求即查询语句分词,提取其中的名词、代词、处所词、人名、地名、机构团体名、其它专名,将它们作为查询概念;

第三步,根据本体和第二步,对查询概念进行扩展,得到查询概念的扩展概念以及它们的相似度,扩展的方法如下:

根据准备工作第3步得到的概念之间的相似度对由第二步获得的查询概念进行扩展,扩展的方法是定义一个阈值θ,凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念;

第四步,根据第三步和准备工作中准备的关键词-文档权重矩阵对应的关键词生成查询向量q,如果关键词是查询概念则其值取1,如果关键词是查询概念的扩展概念,则其值是查询概念和该概念之间的相似度;除此之外,向量中对应分量的值取0;

第五步,对关键词-文档权重矩阵进行奇异值分解(SVD),即At×d=Tt×t·St×d·Dd×dT,]]>然后A将分解后的矩阵降维到K维,即Ak=Tt×t·diag(σ1,σ2,...σk,0,...,0)·Dd×dT,]]>降维的方法是:如果Σi=0jσiα×Σi=0rσi]]>则k=j,其中0<α≤1;σi是非0的奇异值,r为关键词-文档权重矩阵分解后,中间矩阵的秩,α反映了对原始矩阵信息量的保持程度,当α=0.7时,就是保留了原始矩阵70%的信息而去除了30%的信息,去除的信息可能是噪声;

第六步,根据第四步和第五步,将查询向量q变化到K维空间,向量变化空间的方法是:q*=qTTKSK-1]]>其中q*是变化后的K维空间向量,q是原始查询向量,Tk是降维后A的左奇异向量矩阵,即Tt×t的前t行K列,SK是降维后A的奇异值矩阵,即St×d的前K行K列;

第七步,根据第六步,计算降维后的查询向量和每一篇文档对应向量,即D的每一个K维行向量的相似度,并根据向量相似度大小排序,向量相似度越大排的越靠前,向量相似度的计算方法是经典的Cos夹角的计算方法,具体是:sim(q*,dj)=Σm=1kwim×wjm(Σm=1kwim2)·(Σm=1kwjm2)]]>其中,dj为第j个文本向量,k为语义空间的维数,wim为q*的第m维权值,wjm为dj的第m维的权值,这样就可以计算q*与每篇文本的向量相似度,把向量相似度高于阈值的文本按向量相似度大小从高到低排列文本,再将该检索结果返回给用户。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710041649.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top