[发明专利]一种语音识别后的语句纠错方法、装置、设备及存储介质有效
申请号: | 202110632498.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113343671B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 杨东泉;秦伟 | 申请(专利权)人: | 佳都科技集团股份有限公司;广州佳都科技软件开发有限公司;广州新科佳都科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216 |
代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
地址: | 511400 广东省广州市番禺区东环街迎宾*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 语句 纠错 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种语音识别后的语句纠错方法、装置、设备及存储介质。本申请实施例提供的技术方案通过语言模型识别出每个文字在待纠错文本中的第一出现概率,并根据第一出现概率确定在待纠错文本中的识别错误字,利用该语言模型确定模型候选字,并根据识别错误字的拼音和声调确定同音候选字,进一步确定模型候选字和同音候选字之间的第一排序和第二排序,根据第一排序和第二排序确定模型候选字和所述同音候选字之间的候选排序,根据该候选排序可确定纠错候选字,并利用纠错候选字替换待纠错文本中的识别错误字,得到纠正文本,通过非侵入式的方式直接对接并修改语音识别的结果,有效降低语音识别网络学习的训练成本。
技术领域
本申请实施例涉及自然语言技术领域,尤其涉及一种语音识别后的语句纠错方法、装置、设备及存储介质。
背景技术
语音识别技术一般会使用一个端到端的深度学习模型来实现,然而深度学习模型一旦识别出的文字出现错误将很难通过人工调整模型参数来改进效果。
目前通常的做法是将语音识别网络最后的解码成文字的功能层,替换为已经训练好的语言模型(Language Model,LM)来辅助解码,以提高文字解码效果。但是语音识别网络其他层的训练依赖该训练好的语言模型,如果替换语言模型则需要重新训练整个语音识别网络,这种侵入式的网络设计会大幅增加语音识别网络学习的训练成本。
发明内容
本申请实施例提供一种语音识别后的语句纠错方法、装置、设备及存储介质,以降低语音识别网络学习的训练成本。
在第一方面,本申请实施例提供了一种语音识别后的语句纠错方法,包括:
基于训练好的语言模型,确定待纠错文本中每个文字在所述待纠错文本中的第一出现概率,并根据所述第一出现概率在所述待纠错文本中确定识别错误字,所述待纠错文本基于语音识别得到;
基于所述语言模型,确定所述识别错误字对应的模型候选字,并根据所述识别错误字的拼音和声调,确定所述识别错误字对应的同音候选字;
根据所述模型候选字和所述同音候选字在所述待纠错文本中的第二出现概率,确定所述模型候选字和所述同音候选字之间的第一排序,并根据所述模型候选字和所述同音候选字与所述识别错误字之间的文字距离,确定所述模型候选字和所述同音候选字之间的第二排序;
基于所述第一排序和所述第二排序,确定所述模型候选字和所述同音候选字之间的候选排序,根据所述候选排序确定纠错候选字,并利用所述纠错候选字替换所述识别错误字,得到纠正文本。
进一步的,所述基于训练好的语言模型,确定待纠错文本中每个文字在所述待纠错文本中的第一出现概率,并根据所述第一出现概率在所述待纠错文本中确定识别错误字,包括:
将待纠错文本输入到训练好的BERT语言模型中,由所述BERT语言模型输出所述待纠错文本中每个文字在所述待纠错文本中的第一出现概率;
将所述待纠错文本中,第一出现概率低于设定的选择阈值的文字确定为识别错误字。
进一步的,所述方法还包括:
按照样本获取比例,从样本数据集中提取样本文本作为阈值计算样本,所述样本获取比例基于样本数据集中所有样本文本对应的平均字错误率确定;
利用BERT语言模型计算所述阈值计算样本中各个样本正确字和样本错误字的第三出现概率,并根据所述第三出现概率确定样本正确字和样本错误字在不同概率区间的分布,确定选择阈值。
进一步的,所述根据所述第三出现概率确定样本正确字和样本错误字在不同概率区间的分布,确定选择阈值,包括:
根据所述第三出现概率,确定所述阈值计算样本中各个样本正确字和样本错误字在不同概率区间的分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳都科技集团股份有限公司;广州佳都科技软件开发有限公司;广州新科佳都科技有限公司,未经佳都科技集团股份有限公司;广州佳都科技软件开发有限公司;广州新科佳都科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632498.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虎杖苷提取纯化方法
- 下一篇:电动汽车充电站规划方案量化评估方法