[发明专利]一种基于神经网络的语音识别方法、装置有效
申请号: | 201910463635.8 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110197666B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 赵艮平;王理;黄国恒;赵芝茵 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/02;G10L17/04;G10L15/16;G10L15/06;G10L15/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 语音 识别 方法 装置 | ||
本申请公开了一种语音识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:确定儿童语音的频率范围,并获取所述频率范围的语音数据;将所述语音数据划分为多个频带,确定每个所述频带对应的带通滤波器,并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征;提取所述特征的幅度谱,并利用大于预设值的幅度谱训练卷积神经网络,以便利用训练完成的卷积神经网络进行儿童语音的识别。本申请提供的语音识别方法,不仅解决了儿童语音数据的缺乏,减少了儿童语音数据的需求量,提高了语音识别的准确率,而且由于去除了成年人的频率,去除了噪音的干扰,减少了训练网络的时间。
技术领域
本申请涉及语音识别技术领域,更具体地说,涉及一种基于神经网络的语音识别方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
音高就是声音的高低,它决定于频率。长而粗厚的发音体振动慢,短而细薄的发音体振动快。语音中音的高低和人的声带的长短、厚薄、松紧有关。由于儿童说话时的声音和成年人不一样,导致普通的语音识别模型在用来识别儿童语音的时候错误率高,无法接收到正确的反馈。
因此,如何提高儿童语音的识别准确度是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种基于神经网络的语音识别方法、装置及一种电子设备和一种计算机可读存储介质,提高了儿童语音的识别准确度。
为实现上述目的,本申请提供了一种基于神经网络的语音识别方法,包括:
确定儿童语音的频率范围,并获取所述频率范围的语音数据;
将所述语音数据划分为多个频带,确定每个所述频带对应的带通滤波器,并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征;
提取所述特征的幅度谱,并利用大于预设值的幅度谱训练卷积神经网络,以便利用训练完成的卷积神经网络进行儿童语音的识别。
其中,所述确定每个所述频带对应的带通滤波器,包括:
确定带通滤波器模型,并确定所述带通滤波器模型中每个所述频带对应的参数。
其中,所述参数包括采样大小。
其中,所述提取所述特征的幅度谱,包括:
利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱。
其中,所述实值信号包括全波整流信号和半波整流信号。
为实现上述目的,本申请提供了一种基于神经网络的语音识别装置,包括:
获取模块,用于确定儿童语音的频率范围,并获取所述频率范围的语音数据;
提取模块,用于将所述语音数据划分为多个频带,确定每个所述频带对应的带通滤波器,并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征;
训练模块,用于提取所述特征的幅度谱,并利用大于预设值的幅度谱训练卷积神经网络,以便利用训练完成的卷积神经网络进行儿童语音的识别。
其中,所述提取模块包括:
划分单元,用于将所述语音数据划分为多个频带;
确定单元,用于确定带通滤波器模型,并确定所述带通滤波器模型中每个所述频带对应的参数;
第一提取单元,用于利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征。
其中,所述训练模块包括:
第二提取单元,用于利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463635.8/2.html,转载请声明来源钻瓜专利网。