[发明专利]基于三维卷积神经网络文本无关的说话人识别方法及系统有效

申请号：	201710876391.7	申请日：	2017-09-25
公开（公告）号：	CN107464568B	公开（公告）日：	2020-06-30
发明（设计）人：	伍强	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	刘兴亮;刘渝
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于三维卷积神经网络文本无关说话识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于三维卷积神经网络文本无关的说话人识别系统，包括：模块一：语音采集模块，用于语音数据的采集；模块二：语音预处理模块，用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据，等到最终的训练数据；模块三：说话人识别模型训练模块，用于训练说话人识别的离线模型；模块四：说话人识别模块，用于实时识别说话人的身份。本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法。本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统，可以达到用户的注册和识别的文本无关，提高用户的体验度。

技术领域

本发明涉及一种说话人识别方法和系统，具体涉及一种基于三维卷积神经网络的文本无关的说话人识别方法及系统，属于智能识别技术领域。

背景技术

随着人工智能的发展，智能家居语音控制系统的前景开始凸显出来。不过，即使当前的语音识别技术已经基本上达到了人们所需要的标准，在智能家居语音控制系统之中，仍然有一些瑕疵的存在，例如如何准确辨认发出命令的用户的身份，说话人识别(也即声纹识别)是有效解决方式之一。智能家居系统辨别出用户的身份，便可以根据对应用户的个人喜好推送相关内容。以此，借助说话人识别能让用户体验进一步的提升，同时提高了家庭应用环境的安全系数。

因此，随着语音识别热潮的过去，说话人识别又成为了新的热门，被称为智能家居未来发展的关键，或是语音交互的下一个风口。说话人识别将改变未来的智能家居领域的操作习惯，解放用户的双手，双脚，无需走来走去或者拿着移动终端拼命按键。也让老人小孩等不方便用物理形式操控产品系统的用户人群享受智能家居生活，更有助于智能家居在大众家庭的普及落地。

现有的说话人识别技术存在的问题：(1)说话人识别算法基本都是基于文本相关的，即注册和识别的语句必须一致，大大降低了用户的体验度；(2)一些基于文本无关的说话人识别算法，都是人工设计特征，步骤繁琐，工作量大；(3)用户注册阶段，将用户的多个声纹特征求均值之后最为注册模型，这样忽略了同一个词语即使由同一人说出来也会有很大差别这一个特性。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。

本发明是这样实现的：

一种基于三维卷积神经网络文本无关的说话人识别系统，包括：

模块一：语音采集模块，用于语音数据的采集；

模块二：语音预处理模块，用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据，等到最终的训练数据；

模块三：说话人识别模型训练模块，用于训练说话人识别的离线模型；

模块四：说话人识别模块，用于实时识别说话人的身份。

更进一步的方案是：

语音采集是采用录音的方式收集的。

更进一步的方案是：

剔除特征中的非音频数据采用能量比对的方法，首先设定一个能量阈值E，对MFCC的特征中每一帧的能量小于E则认为是噪音剔除，否则是音频数据保留。