[发明专利]一种机器人唤醒的语音关键词识别方法、装置及存储介质有效
| 申请号: | 202010302037.5 | 申请日: | 2020-04-16 |
| 公开(公告)号: | CN111508475B | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 翟懿奎;张裕婷;柯琪锐;周文略;应自炉;徐颖 | 申请(专利权)人: | 五邑大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L19/04;G10L21/0264 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 孙浩 |
| 地址: | 529000 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 机器人 唤醒 语音 关键词 识别 方法 装置 存储 介质 | ||
1.一种机器人唤醒的语音关键词识别方法,其特征在于,包括:
获取语音样本并进行语音增强,得到语音增强样本;
对所述语音增强样本进行分帧处理,得到语音帧;
对所述语音帧进行去噪处理,得到语音样本特征;
将所述语音样本特征输入到深度神经网络模型进行训练,所述深度神经网络模型的输出层的每个神经单元得到后验概率;
将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词;
其中,对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理;
其中,所述堆栈式胶囊自动编码器包括部件胶囊自动编码器和目标胶囊自动编码器;
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用所述部件胶囊自动编码器学习预测所述语音帧的组成部分;
通过对所述组成部分进行仿射变换,得到样本特征部件;
利用所述目标胶囊自动编码器将所述样本特征部件集中于同一目标集合;
所述目标集合对所述样本特征部件进行分开混合预测,得出语音样本特征。
2.根据权利要求1所述的一种机器人唤醒的语音关键词识别方法,其特征在于,所述语音增强,包括:
将所述语音样本转换为PCM格式,并分为若干段音频;
利用SouthTouch音频处理库估算每段音频音轨的稳定节拍率;
保持音轨稳定节拍率,调节音频的节拍和音调;
结合采样率转换与时间拉伸,将若干段调整后的音频重新组合。
3.根据权利要求1所述的一种机器人唤醒的语音关键词识别方法,其特征在于,所述将所述语音样本特征输入到深度神经网络模型进行训练,所述深度神经网络模型的输出层的每个神经单元得到后验概率,包括:
从所述语音样本特征中提取梅尔倒谱特征系数MFCC序列;
将所述MFCC序列输入到深度神经网络模型的输入层;
所述输入层对所述MFCC序列进行并行化处理,然后传输至深度神经网络模型的隐藏层;
所述隐藏层计算所述MFCC序列在深度神经网络模型的输出层的每个神经单元下的后验概率。
4.根据权利要求1所述的一种机器人唤醒的语音关键词识别方法,其特征在于,所述将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词,包括:
判断每个神经单元下的后验概率是否为最大;
若为最大,判断每个神经单元下的后验概率是否存在连续的数值子段均大于预设阈值的概率序列;
若存在,判断该连续的数值子段所对应起始帧与结束帧之间的持续时间是否大于预设时间;
若是,将该连续的数值子段所属的神经单元对应的关键词作为待识别的输入语音所表示的关键词。
5.一种机器人唤醒的语音关键词识别装置,其特征在于,包括:
预处理单元,用于获取语音样本并进行语音增强,得到语音增强样本;
分帧单元,用于对所述语音增强样本进行分帧处理,得到语音帧;
去噪单元,用于对所述语音帧进行去噪处理,得到语音样本特征;
训练单元,用于将所述语音样本特征输入到深度神经网络模型进行训练,深度神经网络模型的输出层的每个神经单元得到后验概率;
综合分析单元,用于将所述后验概率组合成后验概率序列,将所述后验概率序列与预设阈值概率序列进行比较,确定输入语音的关键词;
其中,对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理;
其中,所述堆栈式胶囊自动编码器包括部件胶囊自动编码器和目标胶囊自动编码器;
利用堆栈式胶囊自动编码器对所述语音帧进行去噪处理,得到语音样本特征,包括:
利用所述部件胶囊自动编码器学习预测所述语音帧的组成部分;
通过对所述组成部分进行仿射变换,得到样本特征部件;
利用所述目标胶囊自动编码器将所述样本特征部件集中于同一目标集合;
所述目标集合对所述样本特征部件进行分开混合预测,得出语音样本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010302037.5/1.html,转载请声明来源钻瓜专利网。





