[发明专利]面向源文献元关键词的检索系统有效
申请号: | 201010182289.5 | 申请日: | 2010-05-25 |
公开(公告)号: | CN101840438A | 公开(公告)日: | 2010-09-22 |
发明(设计)人: | 刘宏 | 申请(专利权)人: | 刘宏 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 邓世燕;林辉轮 |
地址: | 610041 四川省成都市锦*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 文献 关键词 检索系统 | ||
技术领域
本发明涉及一种基于关键词的文献检索系统,尤其是涉及一种面向源文献元关键词的检索系统。
背景技术
现有的信息检索技术,如互联网搜索引擎(或者按照常见的说法,“搜索引擎”),其工作原理大致可以分为:
1)搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其中的超链接,就象日常生活中所说的“一传十,十传百......”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
2)整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
3)接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
整理信息及接受查询的过程,大量应用了文本信息检索技术,并根据网络超文本的特点,引入了更多的信息。
关于文本信息检索,目前,最为常用的信息检索模型有三种:1)向量空间模型(Vector Space Model,VSM);2)概率模型(Probabilistic Model);3)推理网络模型(Inference Network Model)。
向量空间模型最早由Gerard提出。在此模型中,一个文档(Document)被描述成由一系列关键词(Term)组成的向量。模型并没有规定关键词如何定义,但是一般来说,关键词可以是字,词或者短语。如果一篇文档包含这个词,那么表示这个文档的向量在这个词所定义的维度上应该拥有一个非0值(对绝大多数系统来说,是正值)。
当一个查询被提交时,由于这个查询也是由文本构成,所以也可以被向量空间所表示。模型将对查询与文档,计算一个相似度。需要注意的是,模型也没有对相似度给出确切的定义。它可以是欧氏距离,也可以是两个向量的夹角的余弦。
文件d的权重向量为vd=[w1,d,w2,d,...,wN,d]T,其中
·tft是词组″t″的在文件″d″出现的次数(区域参数)
是反文件频(全域参数)。|D|是文件的总数;|{t∈d}|是含有词组″t″的文件数。
假设表示文档向量,而表示查询向量,文档与查询的相关性可以用余弦距离表示如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘宏,未经刘宏许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010182289.5/2.html,转载请声明来源钻瓜专利网。