[发明专利]一种利用语义信息检索文档的方法有效
| 申请号: | 201410018112.X | 申请日: | 2014-01-15 |
| 公开(公告)号: | CN103744984B | 公开(公告)日: | 2017-01-25 |
| 发明(设计)人: | 李侃;黄河燕;史树敏;冯冲;栾勇;安韶华 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF‑IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。 | ||
| 搜索关键词: | 一种 利用 语义 信息 检索 文档 方法 | ||
【主权项】:
一种利用语义信息检索文档的方法,其特征在于:步骤一、建立领域本体:令E为本体实体集合,E={e1,e2,…,en},n是本体实体总数,为正整数,ei为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;定义所有本体实体E的label信息及label信息对应的语种,L={l1,l2,…,ll},下标l为正整数,本体实例对应不同语种的不同label信息表示为labelij,i≤n且为正整数,j≤l也为正整数,其含义为ei对应在lj的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数;步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t1,t2,…,tm},其中m为正整数,和词汇tk(1≤k≤m)的词频ck(1≤k≤m);对于每一个词汇tk执行如下操作:1)确定该词汇的语种lk;2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在lk下的label信息与词汇tv的相似度Skv,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似;3)在本体图中标记本体,并累积命中次数efik=efik+ck·Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;4)利用累积命中次数efik,计算出关系强度wik,最后将该映射关系以及关系强度存入数据库中:wik=efiklog(N/dfk)ΣEk∈Di[efiklog(N/dfk)]2]]>0≤wik≤1,N为文档总数,每当输入一篇新的文档,该值递增1;efik为上文提到的命中次数;dfk为匹配到本体实体ek的文档总数;Ek∈Di表示文档Di匹配到的所有本体实体;步骤三、对于用户查询,进行语义扩展,将用户查询的关键字与各本体进行比较;如为本体类,则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类;如果该本体为本体属性,则查找该本体属性的所有Domain和Range;将以上扩展的本体标记为扩展本体,并分类分别设定一定的相似度值;步骤四、计算所有文档与查询关键词的匹配度,在实际计算时通过将文档和用户查询式转化为向量形式,计算其余弦相似度Sim(Di,Q)为最后的评价指标,按照Sim(Di,Q)数值对文档进行递减排序,返回排序后的文档列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410018112.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种气动液压泵
- 下一篇:一种高效磁力搅拌装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





