[发明专利]一种基于脉冲神经网络聚合标签学习的语音识别方法在审
申请号: | 202111412834.X | 申请日: | 2021-11-25 |
公开(公告)号: | CN113838459A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 燕锐;张马路;吴冀彬;王笑;潘纲;唐华锦 | 申请(专利权)人: | 之江实验室;浙江工业大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 311100 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 脉冲 神经网络 聚合 标签 学习 语音 识别 方法 | ||
1.一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,包括以下步骤:
步骤1:将快速时变的语音信号编码成为脉冲序列;
步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果;所述步骤3通过以下子步骤来实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
2.如权利要求1所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤1通过以下子步骤来实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取得到频谱信息,具体的,设每一长度为的帧窗中的频谱采样能量为,则每个帧的频谱能量为,则得到频谱图;然后,利用大脑听觉系统的采样机制,对于该频谱图进行频域遮掩和时域遮掩;
(1.2)对于频谱图的M条频带,每一条频带的能量曲线都被单独编码成脉冲模式,当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲,而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,获得一个有效的稀疏时间脉冲模式。
3.根据权利要求2所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤(1.3)具体为:
每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值,此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲,因此,对于每一段语音信号,使用(15×2 + 1)×M个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
4.根据权利要求1所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤2通过以下子步骤来实现:
(2.1)如果当前的输出神经元和输入模式不对应且实际输出的脉冲个数大于目标的输出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值,在该阈值的情况下,找到最后一个脉冲发放的时间,并且构建误差函数,其中,是在时刻的膜电压,是激发脉冲的阈值;然后利用梯度下降的算法对权重进行更新,其中为学习率,是突触的权重;
(2.2)如果当前的输出神经元和输入模式对应且实际输出的脉冲个数小于目标的输出个数,那么设计一个相对较大的值作为该神经元激发脉冲的阈值,在该阈值的情况下,找到阈下膜电压的最大值,并且构建误差函数,其中在时刻的膜电压,是激发脉冲的阈值,在然后利用梯度下降的算法对权重进行更新,其中为学习率,是突触的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;浙江工业大学,未经之江实验室;浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111412834.X/1.html,转载请声明来源钻瓜专利网。