[发明专利]一种基于深度神经网络的多类声学特征整合方法和系统有效
| 申请号: | 202010073244.8 | 申请日: | 2020-01-22 |
| 公开(公告)号: | CN111276131B | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 李琳;李铮;洪青阳 | 申请(专利权)人: | 厦门大学 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/02 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361000 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 神经网络 声学 特征 整合 方法 系统 | ||
本申请公开一种基于深度神经网络的多类声学特征整合方法和系统。包括利用已知语音数据训练并建立基于深度神经网络的多类声学特征整合模型,以确定或更新多类声学特征整合模型的网络参数;将从待测语音中提取的多类声学特征输入已训练好的具有网络参数的多类声学特征整合模型中,并提取帧级别深度整合特征向量或段级别深度整合特征向量。该方案支持语音识别、语音唤醒、语种识别、说话人识别、防录音攻击欺骗等语音任务中多种声学特征整合向量的提取,可根据实际语音任务充分挖掘多种声学特征的内在联系,用于改善语音任务应用的识别精准度和稳定性。
技术领域
本申请涉及语音识别技术领域,具体涉及一种基于深度神经网络的多类声学特征整合方法和系统。
背景技术
随着计算机技术的发展和通讯技术的发展,近年来,越来越多语音应用和技术被提出。常见的语音任务包括:语音识别、语音唤醒、语种识别、说话人识别、防录音攻击欺骗等。这些语音任务在很多领域里有着广泛且重要的应用,例如消费者终端的手机语音助手、智能音箱等,以及安全领域的设备声纹锁等。
一方面,语音任务应用的工作环境相对复杂,在实际使用中,语音的识别率较低,同时受距离、位置、说话人心理和生理等因素影响,此外,为不同的语音任务配置最合适的声学特征也存在困难,使得现阶段的语音任务应用存在稳定性不强和自适应性弱的问题。
另一方面,语音任务应用仅从一段语音中提取某一特定的声学特征作为语音任务的输入数据,虽然声学特征是借由声学领域的专业知识和实验设计的,但是各种语音任务面对复杂多变的使用场景,仅采用单一的、人为设计的声学特征作为语音任务处理系统的输入数据,会存在对语音任务未充分表达的瓶颈问题,进而影响识别精准度和系统鲁棒性,因此,如何挖掘以任务为驱动的语音最本质的特征表达,以训练出高精准度和高稳定性的语音任务模型成为亟需解决的问题。
发明内容
本申请的目的在于提出了一种基于深度神经网络的多类声学特征整合方法和系统,通过语音任务中多种声学特征整合向量的提取,根据实际语音任务充分挖掘多种声学特征的内在联系,用于改善语音任务应用的识别精准度和稳定性。
第一方面,本申请实施例提供了一种基于深度神经网络的多类声学特征整合方法,该方法包括:
S1:利用已知语音数据训练并建立基于深度神经网络的多类声学特征整合模型,以确定或更新多类声学特征整合模型的网络参数;
S2:将从待测语音中提取的多类声学特征输入已训练好的具有网络参数的多类声学特征整合模型中,并提取帧级别深度整合特征向量或段级别深度整合特征向量。
在该方法中,利用不同类型的多类帧级别声学特征之间的差异性和互补性,结合具体语音任务训练出具有相关网络参数的多类声学特征整合模型,利用训练出来的多类声学特征整合模型,高精准性和高稳定性地完成特定语音任务。
在一些具体实施例中,S1步骤中的深度神经网络包括至少两个浅层特征网络分支、支持多个声学特征的特征整合网络、至少两个全连接的隐藏层和一个面向实际语音任务的输出层。基于神经网络的各个网络结构,实现多类型声学特征整合模型的神经网络结构的构建。
在一些具体实施例中,S1步骤具体包括如下子步骤:
S11:从已知语音数据中的每一个语音样本中提取至少两种不同类型的帧级别声学特征;
S12:将至少两种不同类型的帧级别声学特征分别输入到每种类型所对应的浅层特征网络分支,获得每个浅层特征网络分支输出的至少两种不同类型的帧级别声学特征对应的帧级别浅层特征向量;
S13:结合注意力机制,将帧级别浅层特征向量输入特征整合网络,获得一个帧级别深度整合特征向量;
S14:将帧级别深度特征整合向量依次输入到隐藏层并传输到输出层,根据语音任务计算损失函数后,反梯度传播更新所有深度神经网络的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010073244.8/2.html,转载请声明来源钻瓜专利网。





