[发明专利]语音识别模型的训练方法、语音识别方法及装置有效
| 申请号: | 202010891788.5 | 申请日: | 2020-08-31 |
| 公开(公告)号: | CN111816171B | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 李成飞;杨嵩;徐高鹏 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/183 |
| 代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 郭丽祥;武晨燕 |
| 地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 模型 训练 方法 装置 | ||
1.一种语音识别模型的训练方法,其特征在于,包括:
利用第一通用语料,训练得到语言模型模块;
利用所述语言模型模块,得到初始的语音识别模型,所述初始的语音识别模型包括声学模型模块、融合模块和所述语言模型模块;
利用语音识别标注语料,训练所述初始的语音识别模型,得到收敛的语音识别模型;
利用融合语料,对所述语言模型模块进行微调训练;
其中,所述语言模型模块用于对目标语音中的第一语音单元进行语言规律识别,得到所述第一语音单元的语言规律信息;所述声学模型模块用于对所述目标语音中的第二语音单元进行声学特征提取,得到所述第二语音单元的声学特征;所述融合模块用于将所述第一语音单元的语言规律信息与所述第二语音单元的声学特征融合,得到所述第二语音单元的识别结果;其中,所述第一语音单元是在所述第二语音单元之前的语音单元;
所述方法还包括:
利用第二通用语料,训练得到通用语言模型;
利用与目标场景对应的第一专用语料,训练得到专用语言模型;
利用所述通用语言模型,测试与所述目标场景对应的第二专用语料的困惑度,得到第一测试结果;
利用所述专用语言模型,测试所述第二专用语料的困惑度,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,采用最大期望算法确定融合插值比例;
根据所述融合插值比例,对所述第二通用语料和所述第一专用语料进行融合,得到所述融合语料。
2.根据权利要求1所述的方法,其特征在于,所述利用第二通用语料,训练得到通用语言模型,包括:
根据文本匹配算法,在所述第二通用语料中选取与所述第二专用语料匹配的语料;
利用所述与所述第二专用语料匹配的语料,训练得到所述通用语言模型。
3.一种语音识别方法,其特征在于,包括:
语言规律识别步骤,将目标语音中的第一语音单元的识别结果输入语音识别模型的语言模型模块进行语言规律识别,得到所述第一语音单元的语言规律信息;
声学特征提取步骤,将所述目标语音中的第二语音单元输入所述语音识别模型的声学模型模块进行声学特征提取,得到所述第二语音单元的声学特征;
融合步骤,利用所述语音识别模型的融合模块,将所述第一语音单元的语言规律信息与第二语音单元的声学特征融合,得到所述第二语音单元的识别结果;
其中,所述第一语音单元是在第二语音单元之前的语音单元。
4.根据权利要求3所述的方法,其特征在于,所述目标语音中包括多个语音单元,所述方法还包括:
将所述第二语音单元作为新的第一语音单元,将所述第二语音单元的下一个语音单元作为新的第二语音单元,重复执行所述语言规律识别步骤、声学特征提取步骤和融合步骤,直至将所述目标语音中包括的语音单元全部识别完为止。
5.根据权利要求3所述的方法,其特征在于,所述融合步骤,包括:
将所述第二语音单元的声学特征和所述第一语音单元的语言规律信息输入至所述融合模块中的注意力层进行计算,得到所述第二语音单元的上下文向量;
利用所述融合模块中的归一化子模块,对所述第二语音单元的上下文向量和所述第一语音单元的语言规律信息进行归一化处理,得到所述第二语音单元的识别结果。
6.根据权利要求3所述的方法,其特征在于,所述语言规律识别步骤,包括:
将所述第一语音单元的识别结果输入所述语言模型模块中的编码子模块进行编码,得到所述第一语音单元的编码信息;
将所述第一语音单元的编码信息和所述第一语音单元的位置信息输入所述语言模型模块中的语音模型进行语言规律识别,得到所述第一语音单元的语言规律信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010891788.5/1.html,转载请声明来源钻瓜专利网。





