[发明专利]一种利用语义信息检索文档的方法有效

专利信息
申请号: 201410018112.X 申请日: 2014-01-15
公开(公告)号: CN103744984B 公开(公告)日: 2017-01-25
发明(设计)人: 李侃;黄河燕;史树敏;冯冲;栾勇;安韶华 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF‑IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。
搜索关键词: 一种 利用 语义 信息 检索 文档 方法
【主权项】:
一种利用语义信息检索文档的方法,其特征在于:步骤一、建立领域本体:令E为本体实体集合,E={e1,e2,…,en},n是本体实体总数,为正整数,ei为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;定义所有本体实体E的label信息及label信息对应的语种,L={l1,l2,…,ll},下标l为正整数,本体实例对应不同语种的不同label信息表示为labelij,i≤n且为正整数,j≤l也为正整数,其含义为ei对应在lj的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数;步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t1,t2,…,tm},其中m为正整数,和词汇tk(1≤k≤m)的词频ck(1≤k≤m);对于每一个词汇tk执行如下操作:1)确定该词汇的语种lk;2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在lk下的label信息与词汇tv的相似度Skv,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似;3)在本体图中标记本体,并累积命中次数efik=efik+ck·Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;4)利用累积命中次数efik,计算出关系强度wik,最后将该映射关系以及关系强度存入数据库中:wik=efiklog(N/dfk)ΣEk∈Di[efiklog(N/dfk)]2]]>0≤wik≤1,N为文档总数,每当输入一篇新的文档,该值递增1;efik为上文提到的命中次数;dfk为匹配到本体实体ek的文档总数;Ek∈Di表示文档Di匹配到的所有本体实体;步骤三、对于用户查询,进行语义扩展,将用户查询的关键字与各本体进行比较;如为本体类,则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类;如果该本体为本体属性,则查找该本体属性的所有Domain和Range;将以上扩展的本体标记为扩展本体,并分类分别设定一定的相似度值;步骤四、计算所有文档与查询关键词的匹配度,在实际计算时通过将文档和用户查询式转化为向量形式,计算其余弦相似度Sim(Di,Q)为最后的评价指标,按照Sim(Di,Q)数值对文档进行递减排序,返回排序后的文档列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410018112.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top