[发明专利]一种声学模型的自适应训练方法及系统有效
| 申请号: | 201810346103.1 | 申请日: | 2018-04-17 |
| 公开(公告)号: | CN108735199B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 谭应伟;陈孝良;冯大航;苏少炜;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 声学 模型 自适应 训练 方法 系统 | ||
本公开提供了一种声学模型的自适应训练方法,包括:步骤S1,进行语音特征提取,并将其作为输入训练并生成种子模型,得到目标函数;步骤S2,对种子模型的网络结构进行调整,加入线性层;步骤S3,在目标函数的基础上,添加KL散度正则项;步骤S4,训练线性层,重新利用反向传播算法估计隐线性层的权重和偏移;步骤S5,训练完成,输出自适应模型。由于LHT能够映射场景数据,同时KL散度能够减轻过拟合现象,因此能够保证在自适应数据较少的情况下,减轻在训练神经网络的过程中产生过拟合的现象,提升针对场景数据的识别率。
技术领域
本公开涉及语音识别领域,尤其涉及一种声学模型的自适应训练方法及系统。
背景技术
自动语音识别是人工智能应用的一个重要方向,并发展成为一个具有广阔前景的新兴高技术产业。最近几年来,随着智能家居及车载导航等产业的兴起,远场语音识别技术受到了热切的关注。远场语音识别系统通常包含前端信号处理与后端语音识别模块,前端部分旨在通过语音增强的手段,包括解混响、波束成形等方法来将含有噪声和混响的语音尽可能的处理为“干净”的语音。而后端部分与一般的语音识别系统相同,目的在于将处理后“干净”的语音识别为文字。为了得到更好的识别效果,后端的语音识别需要与前端降噪算法进行匹配。目前,大部分技术供应商的语音识别引擎主要是利用手机上收集的语音进行训练的,因此只适用于近讲的情况。为了解决远场语音与近场模型不匹配的问题,就需要用远场的语音数据来训练声学模型。针对特定的应用场景而言,获取远场语音数据的成本通常很高,这就需要利用少量数据的声学模型自适应技术来提升识别准确率。目前针对DNN/HMM声学模型的自适应技术包括LIT(Linear Input Transformations线性输入变换)等方法。这类方法的都是在种子模型的基础上,加入线性变换层,再重新调整神经网络的权重来达到自适应的目的。
现有的声学模型自适应技术直接利用自适应数据调整神经网络的权重,但算法存在模型发生过拟合现象的问题,使得神经网络的输出分布偏向于自适应的数据,从而损坏种子模型中已经学习到的信息。
发明内容
(一)要解决的技术问题
本公开提供了一种声学模型的自适应训练方法及系统,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本公开的一个方面,提供了一种声学模型的自适应训练方法,包括:步骤S1,进行语音特征提取,并将其作为输入训练并生成种子模型,得到目标函数;步骤S2,对种子模型的网络结构进行调整,加入线性层;步骤S3,在目标函数的基础上,添加KL散度正则项;步骤S4,训练线性层,重新利用反向传播算法估计隐线性层的权重和偏移;步骤S5,训练完成,输出自适应模型。
在本公开一些实施例中,所述步骤S2包括:在得到种子模型以后,在第一个隐层的后面加入隐线性层,对该种子模型的网络结构进行调整。
在本公开一些实施例中,在加入隐线性层时,将该隐线性层的权重初始化为单位矩阵以及偏移初始化为零。
在本公开一些实施例中,在加入线性层后,自适应层的权重Wa和偏移公式Ba如下:
Wa=WLHN×WSI
Ba=BSI+BLHN×WSI
其中,WLHN和BLHN是隐线性层的权重和偏移,WSI和BSI是跟随在线性层后面的层的权重和偏移。
在本公开一些实施例中,所述步骤S1包括:从原始语音及自适应语音数据中,提取梅尔标度滤波器组特征,并提取梅尔频谱特征,将梅尔频谱作为原始语音的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810346103.1/2.html,转载请声明来源钻瓜专利网。





