[发明专利]训练神经网络辅助模型的方法和装置及语音识别方法和装置在审

专利信息
申请号: 201610798027.9 申请日: 2016-08-31
公开(公告)号: CN107785016A 公开(公告)日: 2018-03-09
发明(设计)人: 丁沛;雍坤;贺勇;朱会峰;郝杰 申请(专利权)人: 株式会社东芝
主分类号: G10L15/16 分类号: G10L15/16;G10L17/04;G10L17/18
代理公司: 北京市中咨律师事务所11247 代理人: 刘瑞东,段承恩
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 训练 神经网络 辅助 模型 方法 装置 语音 识别
【说明书】:

技术领域

发明涉及语音识别,具体涉及训练神经网络辅助模型的方法、训练神经网络辅助模型的装置、语言识别方法以及语音识别装置。

背景技术

语音识别系统一般包含声学模型(AM)和语言模型(LM)两个部分。声学模型是统计语音特征对音素单元概率分布的模型,语言模型是统计词序列(词汇上下文)出现概率的模型,语音识别过程是根据两个模型的概率得分的加权和得到得分最高的结果。

近几年,神经网络语言模型(NN LM)作为一种新方法被引入语音识别系统,极大地提高了语音识别性能。

神经网络语言模型相比传统的语言模型提高了语音识别的精度,但是由于计算成本高,难以满足实际需求。主要原因在于神经网络语言模型需要保证所有输出的概率和为1,而这是通过归一化因子实现的。计算归一化因子步骤是先计算每个输出目标的值,然后做加和,因此输出目标的个数决定了计算量。对于神经网络语言模型来说,计算量是由词表大小决定的,而通常情况下词表大小可以达到几万甚至几十万,这将导致此技术无法应用于实时的语音识别系统中。

为了解决归一化因子的计算问题,以往有两种方法。

第一种方法是修改模型的训练目标。传统的训练目标是提高模型的分类准确度,新增加的目标是减少归一化因子的差异性,使得训练后模型的归一化因子近似于一个常数,训练中用参数来调节这两个目标的权重。实际使用中,归一化因子不再精确计算,而是用近似常数来代替。

第二种方法是修改模型的结构。传统的模型是在所有的词汇上做归一化,新的模型是将输出词表先进行分类,输出词的概率计算变为了输出词所属类的概率乘以输出词在类内的概率,而计算类内概率时,归一化因子只需累加类内所有词的输出值,而不是所有的词表,所以可以加快归一化因子的计算。

发明内容

本发明者们发现,传统的神经网络语言模型中解决归一化因子问题的上述方法虽然减小了计算量,但是计算量的减小是以降低模型的分类准确性为代价的。另外,上述第一种方法中引入的训练目标权重需要靠经验来调节,增加了模型的复杂性。

为了在不降低分类准确性的同时降低神经网络语言模型的计算量,使得神经网络语言模型能够应用到实时的语音识别系统,本发明的实施方式提出了首先训练用于计算神经网络语言模型的归一化因子的神经网络辅助模型,在利用神经网络语言模型计算得分时,用神经网络辅助模型计算出近似的归一化因子来代替真实值。具体地,提供了以下技术方案。

[1]一种训练神经网络辅助模型的装置,上述神经网络辅助模型用于计算神经网络语言模型的归一化因子,上述装置包括:

计算单元,其利用上述神经网络语言模型和训练语料,计算至少一层隐藏层的向量和归一化因子;和

训练单元,其利用上述至少一层隐藏层的向量和归一化因子分别作为输入和输出,训练上述神经网络辅助模型。

上述方案[1]的训练神经网络辅助模型的装置,与传统的增加新的训练目标函数的装置相比,使用辅助模型拟合归一化因子,没有引入训练目标权重这个需要靠经验来调节的因子,从而使得整个训练更加简单易用,在降低了计算量的同时没有牺牲模型的分类准确性。

[2]上述方案[1]所述的训练神经网络辅助模型的装置,其中,

上述计算单元,

利用上述神经网络语言模型和上述训练语料,通过向前传播,计算至少一层隐藏层的向量。

[3]上述方案[1]或[2]所述的训练神经网络辅助模型的装置,其中,

上述至少一层隐藏层为最后一层隐藏层。

[4]上述方案[1]-[3]的任一方案所述的训练神经网络辅助模型的装置,

上述训练单元,

利用上述至少一层隐藏层的向量作为输入,并利用上述归一化因子的对数作为输出,训练上述神经网络辅助模型。

[5]上述方案[1]-[4]的任一方案所述的训练神经网络辅助模型的装置,

上述训练单元,

通过减小归一化因子的预测值和真实值之间的误差,训练上述神经网络辅助模型,上述真实值为上述计算得到的归一化因子。

[6]上述方案[5]所述的训练神经网络辅助模型的装置,其中,

上述训练单元,

使用梯度下降法更新上述神经网络辅助模型的参数来减小上述误差。

[7]上述方案[5]或[6]所述的训练神经网络辅助模型的装置,其中,

上述误差为均方根误差。

[8]一种语音识别装置,包括:

输入单元,其输入待识别的语音;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610798027.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top