[发明专利]基于自然语言的全文检索系统无效
| 申请号: | 200810046936.2 | 申请日: | 2008-02-26 |
| 公开(公告)号: | CN101246492A | 公开(公告)日: | 2008-08-20 |
| 发明(设计)人: | 张茂元;邹春燕;赵冰心;卢正鼎;刘明;余毅;杨付全 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/20 |
| 代理公司: | 华中科技大学专利中心 | 代理人: | 曹葆青 |
| 地址: | 430074湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自然语言 全文 检索系统 | ||
1、一种基于自然语言理解的全文检索系统,其特征在于:该系统包括数据库服务器(100)、信息接收判断模块(200)、自然语言处理模块(300)、检索模块(400)、索引模块(500)、索引库(600)和结果集处理模块(700);
数据库服务器(100)用于存储知识数据词典、规则库、文本文件集和索引库(600)以及操作信息;为自然语言处理模块(300)提供数据资源和管理服务,为索引模块(500)提供纯文本文件;
信息接收判断模块(200)根据用户的选择为系统中的自然语言处理模块(300)部署任务,或者直接请求检索模块(400)进行搜索服务;
自然语言处理模块(300)依赖于数据库服务器(100)提供的知识数据词典和规则库,并从信息接收判断模块(200)获得部署的任务;
自然语言处理模块(300)根据部署任务选择下述三种方式之一进行语言处理:第一种方式是对用户的检索命令进行语义分析与自动切分相结合的分词处理,分割出查询词传给检索模块(400)进行搜索;第二种方式是依据知网的规则把查询词从概念上扩展成对应的同义词、近义词,通过概念扩展及同义近义词相似度算法抽取部分扩展词或接收用户选择的扩展词,把查询词和限定的扩展词一起作为查询条件传给检索模块(400)进行搜索,知网是面向计算机的双语常识知识库;第三种方式是将上述二种方式结合,把综合处理后的查询内容提交给检索模块(400);
检索模块(400)为用户提供搜索引擎的使用界面,并提供完备的搜索服务;检索模块(400)负责接收信息接收判断模块(200)的指令和自然语言处理模块(300)递交的处理结果,根据查询语句在索引库(600)中进行查询匹配,返回和查询语句匹配的所有文档信息,根据关键词和扩展词在文档中的集中程度对结果集进行排序处理,将排序后的结果集交给结果集处理模块(700)处理;
索引模块(500)用于接收数据库服务器(100)提供的纯文本文件的内容和相关信息,对文本内容、标题和自定义信息处理得到索引词,利用索引词和文档相关信息建立索引库;
索引库(600)用于存储由索引模块(500)对文本文件建立的索引;索引库(600)还根据检索模块(400)提交的查询请求在索引中进行快速检索和排序,并返回检索模块(400)对应的结果;
结果集处理模块(700)用于接收来自检索模块(400)的结果集,并根据索引库(600)的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显、分页处理并将用户查看快照信息的记录存储于数据库服务器(100)中。
2、根据权利要求1所述的全文检索系统,其特征在于:自然语言处理模块(300)包括:语义分析模块(310)、概念扩展模块(320)、逻辑组合模块(330);
语义分析模块(310)采用语法分词和语义分词相结合的方式对用户输入的句子切分,通过句法分析得到句法结构树,依据词语加权算法对对中心词赋予不同权重;
概念扩展模块(320)依据知网的规则把查询词从概念上扩展成对应的同义词、近义词或上下位词;通过相似度优先算法,抽取部分扩展词或接收用户选择的扩展词,最后把查询词及限定的扩展词一起作为查询条件传给检索模块(400);
逻辑组合模块(330)将语义分析模块(310)和概念扩展模块(320)的功能进行逻辑组合,并将处理结果发送给检索模块(400)。
3、根据权利要求2所述的全文检索系统,其特征在于:检索模块(400)是本系统提供给用户检索信息的模块,它包括查询模块(410)和排序模块(420);
查询模块(410)在索引库中查找所有匹配的文档信息,从匹配的文档信息中选择出满足要求的那部分文档信息作为结果集,并将结果集发送给排序模块(420);
排序模块(420)用于对来自查询模块(410)的结果集进行一个优先级排序,匹配强度最高的文档排在结果集的最前面,匹配强度是用查询词和扩展词在文档中的频率和检索词的权重以及与原词的相似度来衡量的。
4、根据权利要求3所述的全文检索系统,其特征在于:结果集处理模块(700)是用户查询显示的接口,它包括头信息显示模块(710)、反显模块(720)、回显模块(730)和分页处理模块(740);
头信息显示模块(710)用于显示查询结果的提示信息,如果查询模块(410)返回的结果集不空,则在页首显示查询用时和结果集中的文档数以及由概念扩展模块(320)提供的可勾选扩展词;如果查询模块(410)没有检索到匹配的结果,则显示查找结果不存在的提示信息;
反显模块(720)用于对查询模块(410)返回的文本文档结果集和索引库(600)的摘要中的关键字做强调突出处理;
回显模块(730)用于显示排序后结果集的文档中包含有检索词的文摘信息,选择显示文摘信息,每块文摘信息都包含有突出显示的检索词或者扩展词;并对搜索内容的源文件进行链接,读取源文件到页面;
分页处理模块(740)用于将结果集的多篇分档分页显示,在页尾标注页码范围供用户选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810046936.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轴系动平衡实验台
- 下一篇:制造金属外壳的方法及系统





