[发明专利]一种语音识别后的语句纠错方法、装置、设备及存储介质有效
申请号: | 202110632498.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113343671B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 杨东泉;秦伟 | 申请(专利权)人: | 佳都科技集团股份有限公司;广州佳都科技软件开发有限公司;广州新科佳都科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216 |
代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
地址: | 511400 广东省广州市番禺区东环街迎宾*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 语句 纠错 方法 装置 设备 存储 介质 | ||
1.一种语音识别后的语句纠错方法,其特征在于,包括:
基于训练好的语言模型,确定待纠错文本中每个文字在所述待纠错文本中的第一出现概率,并根据所述第一出现概率在所述待纠错文本中确定识别错误字,所述待纠错文本基于语音识别得到;
基于所述语言模型,确定所述识别错误字对应的模型候选字,并根据所述识别错误字的拼音和声调,确定所述识别错误字对应的同音候选字;
根据所述模型候选字和所述同音候选字在所述待纠错文本中的第二出现概率,确定所述模型候选字和所述同音候选字之间的第一排序,并根据所述模型候选字和所述同音候选字与所述识别错误字之间的文字距离,确定所述模型候选字和所述同音候选字之间的第二排序,其中,包括将所述模型候选字与所述识别错误字的拼音之间的编辑距离,作为所述模型候选字与所述识别错误字之间的文字距离,将设定距离作为所述同音候选字与所述识别错误字之间的文字距离,根据所述文字距离,确定所述模型候选字和所述同音候选字之间的第二排序;
基于所述第一排序和所述第二排序,确定所述模型候选字和所述同音候选字之间的候选排序,根据所述候选排序确定纠错候选字,并利用所述纠错候选字替换所述识别错误字,得到纠正文本。
2.根据权利要求1所述的语音识别后的语句纠错方法,其特征在于,所述基于训练好的语言模型,确定待纠错文本中每个文字在所述待纠错文本中的第一出现概率,并根据所述第一出现概率在所述待纠错文本中确定识别错误字,包括:
将待纠错文本输入到训练好的BERT语言模型中,由所述BERT语言模型输出所述待纠错文本中每个文字在所述待纠错文本中的第一出现概率;
将所述待纠错文本中,第一出现概率低于设定的选择阈值的文字确定为识别错误字。
3.根据权利要求2所述的语音识别后的语句纠错方法,其特征在于,所述方法还包括:
按照样本获取比例,从样本数据集中提取样本文本作为阈值计算样本,所述样本获取比例基于样本数据集中所有样本文本对应的平均字错误率确定;
利用BERT语言模型计算所述阈值计算样本中各个样本正确字和样本错误字的第三出现概率,并根据所述第三出现概率确定样本正确字和样本错误字在不同概率区间的分布,确定选择阈值。
4.根据权利要求3所述的语音识别后的语句纠错方法,其特征在于,所述根据所述第三出现概率确定样本正确字和样本错误字在不同概率区间的分布,确定选择阈值,包括:
根据所述第三出现概率,确定所述阈值计算样本中各个样本正确字和样本错误字在不同概率区间的分布;
基于所述样本正确字和所述样本错误字的分布存在相交区间,将所述样本正确字和所述样本错误字的数量最少所对应的概率作为选择阈值;
基于所述样本正确字和所述样本错误字的分布不存在相交区间,将所述样本正确字对应的最大概率和所述样本错误字对应的最小概率的平均值作为选择阈值。
5.根据权利要求1所述的语音识别后的语句纠错方法,其特征在于,所述基于所述语言模型,确定所述识别错误字对应的模型候选字,包括:
利用MASK标记替换所述待纠错文本中的识别错误字,得到掩膜文本;
基于BERT语言模型,确定所述掩膜文本在MASK标记的位置中,各个掩膜替换字的第四出现概率;
根据所述第四出现概率筛选所述掩膜替换字,并将筛选出的所述掩膜替换字作为模型候选字。
6.根据权利要求1所述的语音识别后的语句纠错方法,其特征在于,所述同音候选字包括相同拼音的同音候选字以及易混淆拼音的同音候选字,所述根据所述识别错误字的拼音和声调,确定所述识别错误字对应的同音候选字,包括:
确定所述识别错误字对应的原始拼音和原始声调,并根据所述原始拼音和所述原始声调获取同音候选字;
确定所述拼音对应的易混淆拼音,并根据所述易混淆拼音和所述原始声调获取同音候选字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳都科技集团股份有限公司;广州佳都科技软件开发有限公司;广州新科佳都科技有限公司,未经佳都科技集团股份有限公司;广州佳都科技软件开发有限公司;广州新科佳都科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632498.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虎杖苷提取纯化方法
- 下一篇:电动汽车充电站规划方案量化评估方法