[发明专利]基于自然语言的全文检索系统无效
申请号: | 200810046936.2 | 申请日: | 2008-02-26 |
公开(公告)号: | CN101246492A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 张茂元;邹春燕;赵冰心;卢正鼎;刘明;余毅;杨付全 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/20 |
代理公司: | 华中科技大学专利中心 | 代理人: | 曹葆青 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 全文 检索系统 | ||
技术领域
本发明属于计算机检索技术,具体涉及一种基于自然语言的搜索引擎系统,该系统是对互联网搜索引擎的改进,能够对用户提交的查询内容进行语义分析和概念扩展,通过人机交互操作,用户可得到准确丰富、清晰无歧义的查询结果。
背景技术
随着Internet以及相关技术的发展与成熟,人们已经进入信息量极其丰富的时代。但其固有的大容量、异构性、分布性和动态性,以及Web中大量缺乏组织的无效数据,降低了人们对丰富信息资源的利用效率,出现“信息过载”和“信息迷向”的现象。于是搜索引擎应运而生,它是指对web站点资源和其它网络资源进行标引和检索的一类信息检索系统。大部分网络搜索引擎都采用全文检索技术,处理的对象是文本,能够对文档(网页数据)建立由字(词)到文档的倒排索引,在此基础上,用户使用关键词对文档(网页)进行查询时,系统将给用户返回包含该关键词的网页。
目前的搜索引擎都是基于关键词匹配的检索,但由于词汇的歧义、查询条件和文章选择表达某一主题词汇的不匹配,使检索系统不能理解查询条件的语义而进行基于语义的搜索。即使文档中的词与查询词表达同一概念,却会因为字面形式不匹配而无法被检索到,如“计算机”与“电脑”。这就要求具备检索技巧,以词组或短语形式表达检索请求,从而对普通用户造成一定障碍。这样,政府、互联网协会和社会公众就需要耗费人力、财力和时间培训检索技巧。另外一些不良网络信息的提供者采取了特定技术回避某些敏感词汇,改变其字面形式,用同义词、近义词来替代,从而轻易逃过信息过滤。因此研究基于自然语言理解的信息搜索技术对政府、互联网协会和社会公众使用搜索引擎进行网络信息内容监管是非常有帮助和必要的。
传统的搜索引擎所存在“文海捞针”和“信息丢失”的问题,究其实质在于搜索引擎缺乏对知识进行处理的能力和理解知识的能力,对要检索的信息仅仅采用某类检索模型到预先建立好的索引文件中去检索。词的内在信息负载太小,把它作为信息检索的唯一入口,必将带来包括返回信息过多或信息丢失等问题。为了解决这些问题,提高信息检索的效率,检索系统开始利用语义技术、语义网检索技术和知识处理技术,促进检索系统向智能化方向发展。利用语义知识词典和中文自然语言的处理技术解决词的概念扩展问题,把搜索引擎从基于关键字层面的检索提高到基于概念(知识)层面的检索上来,从概念意义上理解用户的检索请求是实现基于语义的信息检索的一个突破点。
发明内容
本发明的目的在于提供基于自然语言的全文检索系统,该系统不仅能够对用户直接输入的查询内容进行信息检索,还能够对查询内容进行语义分析和概念扩展,具有查全率和智能化程度高的特点。
本发明所述的基于自然语言理解的全文检索系统,其特征在于:该系统包括数据库服务器、信息接收判断模块、自然语言处理模块、检索模块、索引模块、索引库和结果集处理模块;
数据库服务器用于存储知识数据词典,规则库、文本文件集和索引库以及操作信息;为自然语言处理模块提供数据资源和管理服务,为索引模块提供纯文本文件;
信息接收判断模块用于接收用户输入的检索信息并根据用户选择为系统中的自然语言处理模块部署任务,或者直接请求检索模块进行搜索服务;
自然语言处理模块依赖于数据库服务器提供的知识数据词典和规则库,并从信息接收判断模块获得部署的任务;
自然语言处理模块根据部署任务选择下述三种方式之一进行语言处理:第一种方式针对短句查询,通过语义分析与自动切分相结合的分词处理,分割出查询词传给检索模块进行搜索;第二种方式针对词语查询,依据知网的规则把查询词从概念上扩展成对应的同义词、近义词,通过概念扩展及同义近义词相似度算法抽取部分扩展词或接收用户选择的扩展词,把查询词和限定的扩展词一起作为查询条件传给检索模块进行搜索;第三种方式是将上述二种方式结合,把综合处理后的查询内容提交给检索模块;
检索模块为用户提供搜索引擎的使用界面,并提供完备的搜索服务;检索模块负责接收信息接收判断模块的指令和自然语言处理模块递交的处理结果,根据查询语句在索引库中进行查询匹配,返回和查询语句匹配的所有文档信息,即结果集;根据关键词和扩展词在文档中的集中程度对结果集进行排序处理,将排序后的结果集交给结果集处理模块处理;
索引模块用于接收数据库服务器提供的纯文本文件的内容和相关信息,对文本内容、标题和自定义信息处理得到索引词,利用索引词和文档相关信息建立索引库;
索引库用于存储由索引模块对文本文件建立的索引;索引库还根据检索模块提交的查询请求在索引中进行快速检索和排序,并返回检索模块对应的结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810046936.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轴系动平衡实验台
- 下一篇:制造金属外壳的方法及系统