[发明专利]一种语音识别文本的智能纠错方法、系统和电子设备在审
| 申请号: | 202011191600.2 | 申请日: | 2020-10-30 |
| 公开(公告)号: | CN112016275A | 公开(公告)日: | 2020-12-01 |
| 发明(设计)人: | 李蒙;刘志敏 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
| 主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/216;G06F40/226;G06F40/242;G06F40/279;G10L15/26 |
| 代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
| 地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 文本 智能 纠错 方法 系统 电子设备 | ||
本发明提供了一种语音识别文本的智能纠错方法、系统和电子设备。该方法包括:利用主题式对话的历史无错文本构建纠错词库;接收用户语音输入,对所述用户语音输入进行用户文本输入的转换;对转换后的用户文本输入,进行分词处理;使用所述纠错词库,对分词处理后的各词进行纠错判断,确定待纠错词;基于向量相似度,与所述纠错词库中词向量进行相似度匹配;根据相似度匹配结果,对所述待纠错词进行纠错。本发明的方法优化了纠错方法,提高了准确度,有效避免了待纠错的语音文本并未纠错的问题。
技术领域
本发明涉及计算机信息处理领域,具体涉及一种语音识别文本的智能纠错方法、系统和电子设备。
背景技术
随着语音识别技术的发展,语音识别技术的应用领域越来越广,使用语音进行交互的用户也越来越多。因此,对于语音识别文本纠错的研究也越来越多。
在相关技术中,公开了一种对语音识别后文本进行检错纠错的方法,即通过对待识别语音文本进行语法语义分析,从而定位出该待识别语音文本中的锚点词,然后,在预配置的存储有大量实例(例如,各种语境下的句子)的语境知识库中抽取每个锚点词对应的实例(例如,包含该锚点词的文本局形成的实例),然后分别计算每个锚点词对应的实例与该待识别语音文本间的词语相关度,并从该每个锚点词对应的实例中选择,以确定出待纠错词,并对该待纠错词进行纠错。由于同一词语在不同场景下所形成的实例不同,现有的语境知识库中不能涵盖每个词语的所有语境下的实例,因此,存在待纠错的语音文本并未纠错的问题,从而准确度不高。
然而,由于各种外部环境因素,场景差异较大,在语音识别过程中出现语音识别错误是难以避免的,而语音识别错误会影响后续的语义理解模型及对话逻辑处理、进而极大地影响整个语音对话系统的效果及体验。因此,迫切地需要在语音识别结果中定位并纠正语音识别错误。可是,现有的语音识别模型的更新周期往往较长,无法方便快速地解决语音识别错误,还存在准确度不高等问题。
因此,有必要提供一种准确度更高的智能纠错方法。
发明内容
为了进一步优化纠错方法,本发明提供了一种语音识别文本的智能纠错方法,用于主题式对话的语音对话机器人,包括:利用主题式对话的历史无错文本构建纠错词库;接收用户语音输入,对所述用户语音输入进行用户文本输入的转换;对转换后的用户文本输入,进行分词处理;使用所述纠错词库,对分词处理后的各词进行纠错判断,确定待纠错词;基于向量相似度,与所述纠错词库中词向量进行相似度匹配;根据相似度匹配结果,对所述待纠错词进行纠错。
优选地,所述纠错词库包括示例句、一阶词典和二阶词典。
优选地,所述使用所述纠错词库,对分词处理后的各词进行纠错判断,确定待纠错词还包括:基于所述纠错词库,对分词处理后的单个词进行频次统计计算;使用一阶词典,并根据第一判断规则确定待纠错词。
优选地,还包括:基于所述纠错词库,进一步对分词处理后的两个连续词进行频次统计计算;使用二阶词典,并根据第二判断规则确定待纠错词。
优选地,还包括:设定与所述一阶词典和所述二阶词典对应的第一判断规则和第二判断规则;所述第一判断规则包括配置与所述一阶词典中单个词相对应的频次阈值,所述第二判断规则包括配置与所述二阶词典中两个词相对应的频次阈值。
优选地,还包括:在所述用户文本输入的各词的频次计算值小于所述一阶词典中对应词的频次阈值时,确定该词为待纠错词。
优选地,还包括:在所述用户文本输入的两个连续词的频次计算值小于所述二阶词典中对应的两个词的频次阈值时,确定该两个连续词为待纠错词。
优选地,所述基于向量相似度,与所述纠错词库中词向量进行相似度匹配包括:对所述用户文本输入进行词向量转换,与所述纠错词库中的示例句进行相似度计算;在所计算的文本相似度大于设定阈值时,将筛选出的示例句中的各词与所述用户文本输入的各词进行逐词匹配,以确定与待纠错词相对应的正确词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011191600.2/2.html,转载请声明来源钻瓜专利网。





