[发明专利]一种基于Lucene错别字的查询方法有效
申请号: | 201710685977.5 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107506413B | 公开(公告)日: | 2020-03-20 |
发明(设计)人: | 张晓如;陈璟;刘嘎琼;陈国;程文月;刘亮亮 | 申请(专利权)人: | 江苏科技大学;江苏科技大学海洋装备研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 北京一格知识产权代理事务所(普通合伙) 11316 | 代理人: | 滑春生 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 错别字 查询 方法 | ||
本发明涉及一种基于Lucene错别字的查询方法,对所查询文本的句子进行分词,选第一个词,看是否为单字词,若为单字词,查询音似表、形似表,根据音似表和形似表返回出查询结果simset,然后将查询结果simset与后一个词或后一个词查询结果simset做笛卡尔积,得出笛卡尔积结果result,用result匹配词典中的所有词,若匹配成功,返回出纠错结果,加入纠错结果集,纠错结果集若为空,则返回空值,退出匹配,纠错结果集若不为空,则返回所有纠错结果,用纠错结果查询;查询文本句子中的第一个词,不是单字词,或result匹配词典中的所有词,匹配不成功,往后读取字符,重复前步骤。本发明的优点在于:本发明使得Lucene检索能够更加精确及人性化,提高了检索的准确率。
技术领域
本发明属于人工智能计算机领域中的自然语言处理,特别涉及一种基于Lucene错别字的查询方法。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,文本中的错误也越来越多。
目前大多采用人工校对的方法,校对工作单调,劳动强度大,效率低,人工校对的方式已经无法满足文本校对的需求,因此研究自动文本校对对于理论和应用都具有很深远的意义。文本自动校对是自然语言处理的主要应用之一,也是自然语言理解的难题。中文真词错误是指将词典中的一个词写错成词典中另外一个词,而这个词不符合当前上下文语境。例如“他接收总经理的邀请参加会议”中的“接收”是一个真词错误。由于人们的粗心选择以及对汉语词语之间区别的认知不足,汉语文本中出现了很多的真词错误。中文真词错误的自动校对方法存在着以下问题:
1 )发生真词错误的词是词典中正确的词,对于真词错误的检查及给出修改建议,需要依据对该该词的上下文进行考察;
2 )多数发生真词错误的词符合局部语言限制,但却与全局语言限制发生冲突,所以要实现真词错误的自动校对需要考虑该真词与长距离的上下文是否搭配;
3)真词错误会干扰整个句子的语法和语义,因此发现真词错误需要很多的知识与资源;
4)数据稀疏是真词错误自动校对的一个主要的障碍。
针对上述现象,专利CN 105824800 A公开了一种中文真词错误自动校对方法,该方法首先利用正确词词典和汉字混淆集生成中文真词混淆集;利用统计知识对当前词进行验证;通过同义词泛化上下文特征缓解语料的数据稀疏问题;利用贝叶斯模型估计当前词出现在上下文中的概率,最终判断当前词是否为真词错误,对真词错误进行标记并给出修改建议列表。本发明的中文真词错误自动校对方法解决了现有技术中数据稀疏、正确词误判、校对效率低 等问题,具有较高的有效性和准确性;但该发明方法仍存在一定的缺陷:在实际应用中,该方法需要大量语料训练,检索需要消耗较多的时间,对用户的实际体验不是很好。
Lucene是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
本文主要是基于Lucene,研发一种错别字的查询方法,以解决现有技术问题。
发明内容
本发明要解决的技术问题是提供一种基于Lucene错别字的查询方法,以解决上述技术问题。
为解决上述技术问题,本发明的技术方案为:一种基于Lucene错别字的查询方法,其创新点在于:所述查询方法包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学;江苏科技大学海洋装备研究院,未经江苏科技大学;江苏科技大学海洋装备研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710685977.5/2.html,转载请声明来源钻瓜专利网。