[发明专利]基于三维卷积神经网络文本无关的说话人识别方法及系统有效
申请号: | 201710876391.7 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107464568B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 伍强 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 刘兴亮;刘渝 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 三维 卷积 神经网络 文本 无关 说话 识别 方法 系统 | ||
本发明公开了一种基于三维卷积神经网络文本无关的说话人识别系统,包括:模块一:语音采集模块,用于语音数据的采集;模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;模块四:说话人识别模块,用于实时识别说话人的身份。本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法。本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统,可以达到用户的注册和识别的文本无关,提高用户的体验度。
技术领域
本发明涉及一种说话人识别方法和系统,具体涉及一种基于三维卷积神经网络的文本无关的说话人识别方法及系统,属于智能识别技术领域。
背景技术
随着人工智能的发展,智能家居语音控制系统的前景开始凸显出来。不过,即使当前的语音识别技术已经基本上达到了人们所需要的标准,在智能家居语音控制系统之中,仍然有一些瑕疵的存在,例如如何准确辨认发出命令的用户的身份,说话人识别(也即声纹识别)是有效解决方式之一。智能家居系统辨别出用户的身份,便可以根据对应用户的个人喜好推送相关内容。以此,借助说话人识别能让用户体验进一步的提升,同时提高了家庭应用环境的安全系数。
因此,随着语音识别热潮的过去,说话人识别又成为了新的热门,被称为智能家居未来发展的关键,或是语音交互的下一个风口。说话人识别将改变未来的智能家居领域的操作习惯,解放用户的双手,双脚,无需走来走去或者拿着移动终端拼命按键。也让老人小孩等不方便用物理形式操控产品系统的用户人群享受智能家居生活,更有助于智能家居在大众家庭的普及落地。
现有的说话人识别技术存在的问题:(1)说话人识别算法基本都是基于文本相关的,即注册和识别的语句必须一致,大大降低了用户的体验度;(2)一些基于文本无关的说话人识别算法,都是人工设计特征,步骤繁琐,工作量大;(3)用户注册阶段,将用户的多个声纹特征求均值之后最为注册模型,这样忽略了同一个词语即使由同一人说出来也会有很大差别这一个特性。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。
本发明是这样实现的:
一种基于三维卷积神经网络文本无关的说话人识别系统,包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
更进一步的方案是:
语音采集是采用录音的方式收集的。
更进一步的方案是:
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
更进一步的方案是:
语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710876391.7/2.html,转载请声明来源钻瓜专利网。