[发明专利]小数据库条件下正常语音流中耳语音的识别方法有效
| 申请号: | 201610723182.4 | 申请日: | 2016-08-25 |
| 公开(公告)号: | CN106328123B | 公开(公告)日: | 2020-03-20 |
| 发明(设计)人: | 陈雪勤;刘正;赵鹤鸣 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L15/16;G10L15/20 |
| 代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 陶海锋 |
| 地址: | 215123 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据库 条件下 正常 语音 中耳 识别 方法 | ||
1.一种小数据库条件下正常语音流中耳语音的识别方法,包括如下步骤:
(1) 构建语音识别分类系统,所述语音识别分类系统包括:数字语音输入模块,用于对含有耳语音的语音流信号进行采样或者读取;特征提取模块,用于提取频谱特征,提取的频谱特征包括MFCC特征;深度神经网络,由深度信念网络和Softmax输出层构成;
所述深度信念网络由多个受限玻尔兹曼机自下而上堆栈构成,所述频谱特征为深度信念网络的输入特征,所述Softmax输出层对应输出深度神经网络的目标值;所述深度信念网络预训练所得到的参数为深度神经网络的初始网络参数,深度神经网络在初始网络参数的基础上进行一次微调训练,微调训练是有监督的训练过程;
(2) 获取训练数据集样本,对训练数据集样本进行处理,所述处理包括以下方法中的至少一种:
①采用重复方式对数据集进行人工扩展,扩展次数为8~24次;
②对数据集进行置乱处理;
由此获得处理后的训练数据集;
(3) 采用步骤(2)获得的训练数据集对步骤(1)构建的语音识别分类系统进行训练,获得训练后的分类系统;
(4) 采用训练后的分类系统对待识别的语音流进行识别。
2.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法,其特征在于:提取的频谱特征为12阶MFCC、对数能量、0阶倒谱系数、一阶导数、二阶导数,帧长25毫秒,帧移10毫秒。
3.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法,其特征在于:步骤(1)中,所述深度信念网络的隐含层包含100个单元。
4.根据权利要求3所述的小数据库条件下正常语音流中耳语音的识别方法,其特征在于:所述语音识别分类系统的模型参数为:学习迭代次数300次,学习率0.02,冲量0.2,权延迟0.002,批量单位100。
5.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法,其特征在于:所述受限玻尔兹曼机使用二值分布单元。
6.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法,其特征在于:扩展次数大于等于12次,进行随机置乱。
7.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法,其特征在于:扩展次数为20次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610723182.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高浓度有机物污染土壤的修复方法
- 下一篇:调节变换系统温度的变换反应工艺





