[发明专利]一种面向问答系统的输入文本自动纠错方法有效
| 申请号: | 201710507529.6 | 申请日: | 2017-06-28 |
| 公开(公告)号: | CN107220381B | 公开(公告)日: | 2019-11-15 |
| 发明(设计)人: | 江艳 | 申请(专利权)人: | 南京云问网络技术有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211100江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 拼音 名词词典 拼音音节 问答系统 构建 汉字 文本 模糊匹配算法 接收用户 匹配步骤 输入文本 用户体验 自动机构 自动纠错 自动纠正 最大匹配 单音节 正确率 准确率 匹配 合法 切割 输出 | ||
本发明提供了一种面向问答系统的输入文本自动纠错方法。该方法包括:1)定义常见错误拼音音节表;2)构建领域名词词典;3)使用确定的有限自动机构建步骤2)的领域名词词典;4)接收用户输入的文本,所述用户输入的文本包括汉字或拼音,使用汉字转拼音工具转为拼音,然后使用逆向最大匹配法切分除了单音节拼音之外的所有合法或不合法的拼音;5)将步骤4)中切割的拼音采用模糊匹配算法结合步骤1)中定义的常见错误拼音音节表逐一匹配步骤3)中构建的领域名词词典;6)逐一对匹配上的领域名词打分;7)输出得分最高的领域名词。本发明通过自动纠正后的问题,能够问答系统的正确率及准确率,提升用户体验效果。
技术领域
本发明涉及信息检索与查询领域,尤其涉及一种面向问答系统的输入文本自动纠错方法。
背景技术
问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统的设计主要侧重于如何提高对用户提出问题获得的答案的质量上,而没有对用户的输入的提问进行判别和纠正。
然而用户对问答系统提出问题,不可避免的会出现一些输入错误,这些错误会极大的影响问答系统输出的正确率。问答系统由于用户的输入错误,必然会导致获取的相应答案质量降低,使问答系统的正确率降低,用户体验性不高。
在搜索应用中,拼音检索技术可以有效避开输入法,实现拼音原始性检索,在一定程度上改变搜索行为;而在输入法应用中,拼音纠错技术能够自动识别并修改用户输入的错误字符串,以保证正确汉字输出,提高输入法的容错性。拼音纠错技术能够有效增强应用扩展性与用户体验性。
有鉴于此,亟待研发出一种能够解决上述问题的输入文本自动纠错方法。
发明内容
本发明的目的旨在解决现有问答系统中用户输入的问题会出现错误,从而导致问答效果不理想,问答系统的准确率及正确率低的问题。从而提供一种面向问答系统的输入文本自动纠错方法,它能够自动纠正用户的输入错误,并考虑用户本身地方的发音错误,从而提升问答效果。
为实现上述目的,本发明提供了一种面向问答系统的输入文本自动纠错方法。该方法包括以下步骤:
1)定义常见错误拼音音节表;
2)构建领域名词词典,所述领域名词包括名词和名词短语;
3)使用确定的有限自动机构建步骤2)的领域名词词典,
所述确定的有限自动机定义为:R=(Q,A,δ,q0,F),其中,Q表示状态集,A表示输入拼音集,δ:Q×A→Q,δ是Q与A的直积Q×A到Q的映射,q0∈Q为起始状态,为终止状态;
4)接收用户输入的文本,所述用户输入的文本包括汉字或拼音,使用汉字转拼音工具转为拼音,然后使用逆向最大匹配法切分除了单音节拼音之外的所有合法或不合法的拼音;
5)将步骤4)中切割的拼音采用模糊匹配算法逐一匹配步骤3)中构建的领域名词词典,并记录匹配过程中拼音的编辑距离,然后根据步骤1)中常见错误拼音音节表对常见错误下拼音的编辑距离进行调整,在拼音的编辑距离或调整后的拼音的编辑距离小于设定的阈值β时继续匹配,匹配出最长的领域名词,最终取路径所有的汉字组合;
6)对步骤5)中所有汉字组合形成的一个或多个的领域名词进行打分;
7)输出步骤6)中打分最高的领域名词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710507529.6/2.html,转载请声明来源钻瓜专利网。





