[发明专利]一种基于深度神经网络的多类声学特征整合方法和系统有效
| 申请号: | 202010073244.8 | 申请日: | 2020-01-22 |
| 公开(公告)号: | CN111276131B | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 李琳;李铮;洪青阳 | 申请(专利权)人: | 厦门大学 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/02 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361000 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 神经网络 声学 特征 整合 方法 系统 | ||
1.一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述方法包括:
S1:利用已知语音数据训练并建立基于深度神经网络的多类声学特征整合模型,所述深度神经网络包括至少两个浅层特征网络分支和支持多个声学特征的特征整合网络,其中,在所述特征整合网络对输入的至少两种不同类型的帧级别浅层特征向量通过注意力机制进行对应的重要性权重计算,然后在所述特征整合网络中的整合层将所述帧级别浅层特征向量和对应的所述重要性权重相乘,并进行拼接或相加处理后,进行降维处理或规整处理获得帧级别深度整合特征向量,以确定或更新所述多类声学特征整合模型的网络参数;
S2:将从待测语音中提取的多类声学特征输入已训练好的具有所述网络参数的所述多类声学特征整合模型中,并提取所述待测语音的帧级别深度整合特征向量。
2.根据权利要求1所述的一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述S1步骤中的所述深度神经网络还包括将所述帧级别深度整合特征向量汇聚成段级别深度整合特征向量的统计池化层、至少两个全连接的隐藏层和一个面向实际语音任务的输出层。
3.根据权利要求2所述的一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述S1步骤具体包括如下子步骤:
S11:从所述已知语音数据中的每一个语音样本中提取至少两种不同类型的帧级别声学特征;
S12:将至少两种不同类型的所述帧级别声学特征分别输入到每种类型所对应的所述浅层特征网络分支,获得每个所述浅层特征网络分支输出的至少两种不同类型的所述帧级别声学特征对应的所述帧级别浅层特征向量;
S13:结合注意力机制,将所述帧级别浅层特征向量输入所述特征整合网络,获得一个所述帧级别深度整合特征向量;
S14:将所述帧级别深度特征整合向量依次输入到所述隐藏层和所述输出层,根据语音任务计算损失函数后,反梯度传播更新所有深度神经网络的网络参数。
4.根据权利要求3所述的一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述S14步骤还可包括:将所述帧级别深度整合特征向量输入所述统计池化层,以形成所述段级别深度整合特征向量,其中,所述统计池化层被设置在所述特征整合网络与所述两个全连接的隐藏层之间,将所述段级别深度整合特征向量输入到所述隐藏层并传输到所述输出层,根据所述语音任务计算损失函数后,反向梯度传播以更新所述网络参数。
5.根据权利要求1所述的一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述特征整合网络由一个基于注意力机制的全连接层、一个所述整合层和一个全连接层组成。
6.根据权利要求1所述的一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述拼接处理的具体计算公式如下:
I=Concat(a1F1,a2F2,...,aNFN)
其中,I表示所述帧级别初步整合特征向量,函数Concat()表示拼接操作,F1,F2,...,FN分别表示所述帧级别浅层特征向量,a1,a2,...,aN分别表示所述对应的重要性权重,N表示为所述帧级别声学特征的数量;
所述相加处理的具体计算公式如下:
其中,I表示所述帧级别初步整合特征向量,Fi表示所述帧级别浅层特征向量,ai分别表示所述对应的重要性权重,N表示为所述帧级别声学特征的数量。
7.根据权利要求3所述的一种基于深度神经网络的多类声学特征整合方法,其特征在于,所述S2步骤中,根据实际语音任务,将所述待测语音经过已训练好网络参数的所述多类声学特征整合模型,在所述特征整合网络输出所述待测语音的帧级别深度整合特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010073244.8/1.html,转载请声明来源钻瓜专利网。





