[发明专利]基于卷积神经网络和频谱图的说话人识别方法在审
申请号: | 201710336940.1 | 申请日: | 2017-05-14 |
公开(公告)号: | CN106952649A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 李玉鑑;穆红章 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/04 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 频谱 说话 识别 方法 | ||
技术领域
本发明属于语音识别技术领域,本发明涉及一种基于卷积神经网络的说话人识别方法。
背景技术
随着信息技术的发展,高科技以数字化的形式融入了我们的生活,带来了很多的便利,同样又促进了数字化生活的发展。识别技术也发生了巨大的变化,由传统的密码验证方式,更多的转换为数字证书和生物认证识别等新兴技术。尤其是生物识别技术,由于它是利用人体自身所固有的生理或行为特征作为识别依据来进行个体验证的方法,克服了传统认证手段易于丢失、遗忘,易被仿造盗用等缺点,越来越受到国内外研究者的广泛关注。
目前说话人识别的研究面临着很多问题需要解决,在复杂的环境中检测效果较差,无法把我们想要的东西提取出来如何将有效的信息更加准确的提取出来是面临最主要的挑战。说话人识别分为说话人辨认和说话人确认两种。由于说话人识别技术受到环境和不同个体的说话方式等的影响较大,研究人员提出很多解决方法。典型的说话人识别系统包括预处理、特征提取、识别模型匹配三个过程。预处理包括端点检测、分帧、加窗等。特征提取是提取出符合当前说话人语音规律的特征,好的特征参数直接决定了系统的性能。常见的特征参数包括MFCC(Mel Frequency Cepstrum Coefficient)、LPC(Linear Prediction Coefficient)以及LPCC(Linear Prediction Cepstrum Coefficient)等。其中以MFCC最为经典,它充分考虑到人耳听觉特性。
在说话人识别方向,目前有很多方法被提出用于提高识别效率。目前的方法是将GMM模型聚成一类,再根据每类中说话人语音为每一类训练一个GMM模型,GMM的思想认为任何一个说话人的语音特征参数是由一个个高斯函数加权产生的,该模型简单有效且抗噪能力强,被广泛应用于文本无关说话人识别。考虑到实际训练语音较短,为每个说话人单独训练一个GMM模型较困难。在人工智能时代,能否将人工智能应用在说话人识别,因此,寻找一种高效的说话人识别算法,具有重要的新颖性、创造性和实用价值。
发明内容
基于卷积神经网络实现说话人识别的思路是将说话人音频均匀划分为若干个大的频谱图,每个频谱图携带了自身说话人的频率信息,将这些频率信息转化为频谱图。
本发明是将这些音频文件转为频谱图通过卷积神经网络来提取特征以及分类识别。
本发明提出的方法,将时域信号转化为频域信号并灵活使用了卷积神经网络来处理频域信号。本发明也具有一定的实际应用价值:一是作为深度学习算法的实际应用平台辅助教学;二是在当前深度学习的领域,实现说话人的识别,从而使用卷积神经网络来处理语音信号;三是由于本发明使用硬件成本资源较少以及计算简单快捷,易于实现。
本发明主要由说话人语音信号和卷积神经组成。说话人语音是由说话人说的0-9数字构成,卷积神经网络是改进的AlexNet网络实现。
基于卷积神经网络的说话人识别包括两个阶段:
语音信号转频域阶段:为了体现信号随时间的频谱情况,采用短时傅里叶变换处理。短时傅里叶变换又称为滑动窗傅里叶变换,就是用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅里叶变换:其中w(k,τ)是一个长度为N的窗函数,X(w,τ)是一个二维函数,表示中心点位于τ的加窗声音的傅里叶变换,通过上述公式将声音信号转换为对应的某种灰度级的点来表征,这就是信号处理中的语谱图。
首先得到该语音信号的采样频率16kHZ以及傅立叶函数点数1024,再设计该语音信号的窗长1024,步长512加窗重叠点数512,通过Matlab短时傅立叶变换,最后通过log取对数,绘制频谱图,详细流程图如图7所示。
深度学习识别阶段:得到绘制的频谱图以后,把频谱图按照4:1的比例分为训练数据集和测试数据集。分好数据集后,将数据集的图片生成caffe框架所需要的数据格式LEVELDB形式的数据,为提高模型的准确率,又生成了均值文件放入训练数据中,下一步设计网络结构,在原有AlexNet的基础上增加dropout以及BatchNormalization来提高识别正确率。根据设计好的网络模型,训练神经网络来识别说话人。
在卷积神经网络中,卷积层的每一个卷积核作用于整个图像中,对输入图像进行卷积操作。卷积结果构成了输入图像的特征图,提取出图像的局部特征。每一个卷积滤波器共享相同的参数,包括相同的权重矩阵和偏置项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710336940.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于造纸机脱水干燥装置
- 下一篇:一种桥面防结冰智能系统