[发明专利]一种利用语义信息检索文档的方法有效
| 申请号: | 201410018112.X | 申请日: | 2014-01-15 |
| 公开(公告)号: | CN103744984B | 公开(公告)日: | 2017-01-25 |
| 发明(设计)人: | 李侃;黄河燕;史树敏;冯冲;栾勇;安韶华 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 语义 信息 检索 文档 方法 | ||
技术领域
本发明专利涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。
背景技术
在因特网和企业内部网络中,积累了大量的知识文档,如何从海量的数据中快速、准确的获取用户真正需要的信息成为新的挑战。利用信息抽取技术从文档中提取出来的语义信息为用户精确查询提供了基础。
近年来描述语义信息的本体被逐渐的重视并且大量的创建,为语义检索提供了基础。将半结构化或者是无结构化的文档利用本体转化成高度结构化的内容,可以显著提高检索的准确率,使得用户检索更加高效。本体是抽象概念的具体描述,是语义的信息形式化表达。目前的搜索引擎主要是基于关键词的全文匹配或是基于主题分类(例如Google、百度)进行检索的。结果往往会返回大量无关的内容,使得用户将大量的时间耗费在排除无关信息上。
现在已有的语义信息的检索系统有自然语言接口的Aqualog系统,它采用用户交互来辅助系统消除自然语言查询过程中产生的歧义;类似的自然语言接口的查询系统还有Querix、Bernstein等。这些系统由于使用了自然语言作为查询条件,一方面增加系统交互的灵活性,用户可以更少约束、更加准确地表达自己的需要,但是另一方面却增加了交互的难度和系统设计的复杂性。SemRank则是一种关键词接口的语义检索系统,它利用本体实体的统计信息对结果进行排序,但它更加关注检索结构化本体,而不是大量已经存在的非结构化的网页和文档信息。
发明内容
本发明的目的是为解决现在信息检索方法无法准确找到用户所需内容的问题,提出一种利用语义信息进行文档检索的方法。
为实现上述目的,本发明所采用的技术方案如下:
步骤一、建立领域本体:令E为本体实体集合,E={e1,e2,...,en},n是本体实体总数,为正整数,ei为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;为每一个本体实体指定label信息和label信息对应的语言语种L={l1,l2,...,ll},下标l为正整数,本体实例对应不同语种的不同label信息表示为labelij,i≤n且为正整数,j≤l也为正整数,其含义为ei对应在lj的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数;
步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t1,t2,...,tm},其中m为正整数,和词汇tk(1≤k≤m)的词频ck(1≤k≤m);对于每一个词汇tk执行如下操作:
1)确定该词汇的语种lk;
2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在lu下的label信息与词汇tv的相似度Skuv,因每个词汇对应的语言种类是确定的,所以每次匹配label信息时,只会匹配到一种语言的label信息,故使用Skv表示ek与词汇tv的相似度度量,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似;
3)在本体图中标记本体,并累积命中次数efik=efik+ck·Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;
4)利用累积命中次数efik,计算出关系强度wik,最后将该映射关系以及关系强度存入数据库中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410018112.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气动液压泵
- 下一篇:一种高效磁力搅拌装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





