[发明专利]堆叠式一维卷积网络唤醒声学模型的优化方法及系统有效
申请号: | 202110459204.1 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113129873B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 王蒙;薛少飞;唐健 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L19/008 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 堆叠 式一维 卷积 网络 唤醒 声学 模型 优化 方法 系统 | ||
本发明实施例提供一种堆叠式一维卷积网络唤醒声学模型的优化方法。该方法包括:调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数,增加时域卷积层输出的感受野;将时域卷积层的激活函数设置成门控线性单元,利用门控线性单元与时域卷积层的输出相结合,降低时域卷积层输出的维度,以优化堆叠式一维卷积网络唤醒声学模型。本发明实施例还提供一种堆叠式一维卷积网络唤醒声学模型的优化系统。本发明实施例卷积核的间隔引起感受野的增加,则有效的增大了模型的感受野,提升唤醒精度,同时门控线性单元与S1DCNN模型相结合之后,输出的维度可以降至原来的一半,更好的压缩了模型参数量,从而在相同参数量下,可以达到更高的唤醒率。
技术领域
本发明涉及智能语音领域,尤其涉及一种堆叠式一维卷积网络唤醒声学模型的优化方法及系统。
背景技术
S1DCNN(Stacked 1D convolutional networks,堆叠式一维卷积网络)唤醒声学模型,是由不同若干个S1DCNN层组成的;每一个S1DCNN层主要由两个一维卷积层(cnn)构成。第一个卷积层是频域卷积,第二个卷积层是时域卷积,并且各个通道互不相关,被称为depth-wise(深度)卷积。S1DCNN相比传统的二维CNN,在降低计算量的同时,能够达到相同水平的性能,或者性能损失较小,在轻量级的声学模型(比如,语音唤醒的声学模型)中有更高的使用价值。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
S1DCNN的时域卷积的感受野比较单一(感受野,reception fields,指某一层特性图中某个位置的特征向量,是由前面某一层固定区域的输入计算出来的,那这个区域就是这个位置的感受野)。
并且在使用后处理算法的语音唤醒系统中,S1DCNN声学模型的稳定性不高。具体表现为,同一种结构,在不同数据集上,相比基线,唤醒率有提升,也有下降。
发明内容
为了至少解决堆叠式一维卷积网络唤醒声学模型感受野较为单一,并且稳定性不高的问题。
第一方面,本发明实施例提供一种堆叠式一维卷积网络唤醒声学模型的优化方法,包括:
调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数,增加所述时域卷积层输出的感受野;
将所述时域卷积层的激活函数设置成门控线性单元,利用所述门控线性单元与所述时域卷积层的输出相结合,降低所述时域卷积层输出的维度,以优化所述堆叠式一维卷积网络唤醒声学模型。
第二方面,本发明实施例提供一种堆叠式一维卷积网络唤醒声学模型的优化系统,包括:
膨胀系数调整程序模块,用于调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数,增加所述时域卷积层输出的感受野;
优化程序模块,用于将所述时域卷积层的激活函数设置成门控线性单元,利用所述门控线性单元与所述时域卷积层的输出相结合,降低所述时域卷积层输出的维度,以优化所述堆叠式一维卷积网络唤醒声学模型。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的堆叠式一维卷积网络唤醒声学模型的优化方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的堆叠式一维卷积网络唤醒声学模型的优化方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110459204.1/2.html,转载请声明来源钻瓜专利网。