[发明专利]基于一致性路由网络的语音音素识别方法有效
申请号: | 201910035513.9 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109741733B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 徐宁;倪亚南;刘小峰;姚潇 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 一致性 路由 网络 语音 音素 识别 方法 | ||
本发明公开一种基于一致性路由网络的语音音素识别方法,首先在训练阶段,构造一致性路由前馈网络编码器,对向量初始语音音素数据进行矩阵运算和二维卷积得到低阶状态向量;构造一致性路由网络的一致性路由结构,通过一致性路由系数加权低阶状态向量,将其中的信息传递给高阶状态向量;以每个高阶状态向量的长度的softmax激活值在所有高阶状态向量softmax激活值中的占比来表示判定为该标签的概率;然后构造一致性路由网络的重构解码器,将真实标签对应的高阶状态向量进行解码重构;基于总损失函数对一致性路由网络的参数求得梯度公式进行优化更新;在测试阶段,将初始语音音素数据输入一致性路由网络的前馈编码器中,判断待测试数据的所属类别。
技术领域
本发明属于分类处理及深度学习技术领域,具体涉及一种基于一致性路由网络的语音音素识别方法。
背景技术
语音数据是现代信息数据的重要处理内容,每一帧语音数据都可以用特征参数来描绘,比如共振峰有关参数,即一帧语音数据的共振峰频率(第一维)、带宽(第二维)、能量频谱倾斜(第三维)等,以上是基于研究人员经验积累、按照理论知识直接提取出来的多维特征。然而这样的工作计算量非常大,并且需要大量的尝试以及创新。近几年崛起的深度学习方法集特征提取和特征的分类于一体,具有非常强大的特征自组织以及特征抽象能力,能够帮助研究人员减轻在语音数据特征的设计上投入的时间和精力。卷积神经网络目前已经在图像的分类识别方面取得了巨大的成就,但是由于语音数据和图像数据存在一定的差异,卷积网络善于处理矩阵形式的图像信号,然而语音数据是时间序列,多个采样点之间有时间轴上的先后关系,因此,卷积神经网络并不适合直接处理语音数据。本发明提出的一致性路由网络能够克服传统的卷积网络所具有的缺点,得到识别目标所具有的更高阶更鲁棒的数字化表征。
发明内容
本发明的目的是针对现有技术存在的问题,提出一种基于一致性路由网络的语音音素识别方法,实现对语音音素的时序信号所对应的音速符号的精准识别,解决现有技术中按照理论知识直接提取的语音特征准确度低、语音数据分类效果差以及过拟合的技术问题。
为实现上述目的,本发明采用的技术方案是:
基于一致性路由网络的语音音素识别方法,包括以下步骤:
步骤1,构造一致性路由网络的前馈网络编码器;
步骤2,构造一致性路由网络的重构解码器,将真实标签对应的高阶状态向量进行解码重构;
步骤3,根据softmax激活值的判别结果计算分类损失,根据对比解码器的解码结果和原始数据计算重构损失,根据一致性路由结果计算相似性损失,将分类损失、重构损失、相似性损失进行加权求和得到总损失,使用自适应矩估计法对一致性路由网络中的所有可更新参数进行优化,使总损失最小化;
步骤4,将待测试的初始语音音素数据输入一致性路由网络的编码器中,根据所有高阶状态向量长度的softmax激活值判断待测试的初始语音音素数据的所属类别。
优选地,步骤1进一步包括以下步骤:
步骤1.1,使用矩阵乘法和二维卷积核对初始语音音素数据进行矩阵运算和二维卷积计算,计算得到低阶状态向量;
步骤1.2,构造一致性路由网络的一致性路由结构,通过矩阵和向量的元素乘法之后求平均值,将低阶状态向量中的信息传递给高阶状态向量;
步骤1.3,用每个类别对应的高阶状态向量的长度的softmax激活值在所有高阶向量softmax激活值中的占比来表示判别为该类别的语音音素数据的概率。
优选地,初始语音音素数据是通过原始语音数据经过预处理得到,具体包括以下步骤:
步骤A,对原始语音进行巴特沃斯带通滤波,并检测异常值点,去除毛刺噪声点;
步骤B,对滤波后的语音信号进行分帧处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910035513.9/2.html,转载请声明来源钻瓜专利网。