[发明专利]基于卷积神经网络和频谱图的说话人识别方法在审
申请号: | 201710336940.1 | 申请日: | 2017-05-14 |
公开(公告)号: | CN106952649A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 李玉鑑;穆红章 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/04 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 频谱 说话 识别 方法 | ||
1.基于卷积神经网络和频谱图的说话人识别方法,其特征在于:基于卷积神经网络的说话人识别包括两个阶段:
语音信号转频域阶段:为了体现信号随时间的频谱情况,采用短时傅里叶变换处理;短时傅里叶变换又称为滑动窗傅里叶变换,就是用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅里叶变换:其中w(k,τ)是一个长度为N的窗函数,X(w,τ)是一个二维函数,表示中心点位于τ的加窗声音的傅里叶变换,通过上述公式将声音信号转换为对应的某种灰度级的点来表征,这就是信号处理中的语谱图;
首先得到该语音信号的采样频率16kHZ以及傅立叶函数点数1024,再设计该语音信号的窗长1024,步长512加窗重叠点数512,通过Matlab短时傅立叶变换,最后通过log取对数,绘制频谱图;
深度学习识别阶段:得到绘制的频谱图以后,把频谱图按照4:1的比例分为训练数据集和测试数据集;分好数据集后,将数据集的图片生成caffe框架所需要的数据格式LEVELDB形式的数据,为提高模型的准确率,又生成了均值文件放入训练数据中,下一步设计网络结构,在原有AlexNet的基础上增加dropout以及BatchNormalization来提高识别正确率;根据设计好的网络模型,训练神经网络来识别说话人;
在卷积神经网络中,卷积层的每一个卷积核作用于整个图像中,对输入图像进行卷积操作;卷积结果构成了输入图像的特征图,提取出图像的局部特征;每一个卷积滤波器共享相同的参数,包括相同的权重矩阵和偏置项;
神经网络的结构中也有降采样层,降采样层是一种非线性降采样方法;考虑到卷积层输出的特征图仍然包含大量数据,若直接训练,则很难训练出一个有效的分类器;通过降采样操作,将特征数据大大减少,并且其对旋转、尺度和缩放具有不变性,同时还减少了计算的复杂度;降采样方法是一种高效的降低数据维度的采样方法;在图像识别中,降采样的操作分为两类:最大值和平均值;降采样模板取2×2,即取2X2大小图像块的四个像素值中的最大值或平均值为降采样后的像素值;经过降采样后,图像的大小变为原来的1/4,将其存于其他片块最大值的矩阵中,并放弃激活映射图中所在的其他信息;仅保留图像中与各特征相关性最大的位置,这些最大值一起构成了较低维度的空间,达到了降维的作用;
减少模型参数,防止过拟合,提高模型的平移不变形;能够更好的训练这个模型。
2.根据权利要求1所述的基于卷积神经网络和频谱图的说话人识别方法,其特征在于:
说话人音频数据集是有24个说话人分别朗读了0-9数字,对说话人音频数据集进行以下操作;
S1生成频谱图操作:
步骤1:通过读取声音信号得到采样频率、左右声道;
步骤2:将这些数据存放在数组中并计算长度;
步骤3:对分频数据进行加窗处理,其中重叠比例为50%,保存数据
步骤4:对分频的数据进行傅里叶变换
步骤5:通过数组展示频谱图;
S2深度学习阶段操作:
步骤1:将音频文件的语音信号通过代码转化为频谱图;
步骤2:拿到这些频谱图后,运行GenerateTrainAndTest.m将频谱图分为训练集和测试集,其中训练集占80%,测试集占20%;
步骤3:运行readImage.py将数据集生成列表文件也就是生成带有label的train.txt文件
步骤4:运行readImage.py将数据集生成列表文件也就是生成带有label的test.txt文件
步骤5:利用步骤3、4的txt文件将图片通过bat命令生成LEVELDB数据;
步骤6:AlexNet网络需要计算图像的均值,通过mean.bat计算得到image_mean.binaryproto文件;
步骤7:利用AlexNet网络,利用训练好的模型进行初始化,将output类别改为24类;进一步训练网络;
步骤8:通过train.bat训练网络;
步骤9:通过caffemodel来微调网络模型;
步骤10:通过test.bat来测试网络的分类效果;
步骤11:测试网络对单张图像进行分类测试,输出top-5,概率最大的前5类的类别标签及概率;
通过将语音信号转化为频域信号,然后让神经网络来识别频域信号,进而实现对说话人的识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710336940.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于造纸机脱水干燥装置
- 下一篇:一种桥面防结冰智能系统