[发明专利]一种语音识别方法、装置和电子设备有效
| 申请号: | 202011294806.8 | 申请日: | 2020-11-18 |
| 公开(公告)号: | CN112420050B | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 易中华 | 申请(专利权)人: | 北京帝派智能科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/14;G10L15/16 |
| 代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 郭放;许伟群 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 方法 装置 电子设备 | ||
1.一种语音识别方法,其特征在于,包括:
使用声学模型生成第一语音数据对应的第一声学表征;
生成第一文本数据对应的第一发音符号序列;
以所述第一发音符号序列作为数据生成器模型的输入,以所述第一声学表征作为所述数据生成器模型的输出,训练所述数据生成器模型,以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征;
使用所述数据生成器模型生成第二文本数据对应的第二声学表征,所述第二文本数据的规模大于所述第一文本数据;
使用所述第二文本数据和所述第二声学表征训练语言模型,以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。
2.根据权利要求1所述的方法,其特征在于,所述使用所述数据生成器模型生成第二文本数据对应的第二声学表征,包括:
生成所述第二文本数据对应的第二发音符号序列;
将所述第二发音符号序列输入到所述数据生成器模型,以生成所述第二声学表征。
3.根据权利要求1或2所述的方法,其特征在于,
所述声学模型包括高斯混合模型结合隐马尔可夫模型GMM-HMM,或者神经网络模型结合隐马尔可夫模型NN-HMM;所述神经网络模型包括长短期记忆网络模型LSTM;
所述声学表征包括所述GMM-HMM输出的所有HMM状态下的输出概率;
或者,所述声学表征包括所述神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。
4.根据权利要求1或2所述的方法,其特征在于,所述数据生成器模型包括生成对抗网络GANNet。
5.根据权利要求1所述的方法,其特征在于,所述使用所述第二文本数据和所述第二声学表征训练语言模型,包括:以所述第二声学表征为所述语言模型的输入,以所述第二文本数据为所述语言模型的输出,训练所述语言模型。
6.根据权利要求1所述的方法,其特征在于,所述使用所述第二文本数据和所述第二声学表征训练语言模型,包括:以所述第一声学表征和所述第二声学表征为所述语言模型的输入,以所述第一文本数据和所述第二文本数据为所述语言模型的输出,训练所述语言模型。
7.根据权利要求1、5、6任一项所述的方法,所述语言模型包括基于注意力机制的序列到序列的编码器和解码器;所述编码器包括循环神经网络结构或者卷积神经网络结构;所述解码器包括循环神经网络结构。
8.一种语音识别装置,其特征在于,包括:
第一训练单元,用于使用声学模型生成第一语音数据对应的第一声学表征;
第二训练单元,用于生成第一文本数据对应的第一发音符号序列,以所述第一发音符号序列作为数据生成器模型的输入,以所述第一声学表征作为所述数据生成器模型的输出,训练所述数据生成器模型,以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征;
第一生成单元,用于使用所述数据生成器模型生成第二文本数据对应的第二声学表征,所述第二文本数据的规模大于所述第一文本数据;
第二生成单元,用于使用所述第二文本数据和所述第二声学表征训练语言模型,以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时,使得所述处理器执行以下程序步骤:
使用声学模型生成第一语音数据对应的第一声学表征;
生成第一文本数据对应的第一发音符号序列;
以所述第一发音符号序列作为数据生成器模型的输入,以所述第一声学表征作为所述数据生成器模型的输出,训练所述数据生成器模型,以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征;
使用所述数据生成器模型生成第二文本数据对应的第二声学表征,所述第二文本数据的规模大于所述第一文本数据;
使用所述第二文本数据和所述第二声学表征训练语言模型,以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京帝派智能科技有限公司,未经北京帝派智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011294806.8/1.html,转载请声明来源钻瓜专利网。





