[发明专利]一种语音智能分类方法及系统在审
| 申请号: | 201811000494.8 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109087635A | 公开(公告)日: | 2018-12-25 |
| 发明(设计)人: | 饶鉴;熊展坤;刘罡 | 申请(专利权)人: | 湖北工业大学 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G10L25/30;G10L25/24;G10L25/63 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张海青 |
| 地址: | 430000 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音数据 测试集 分类模型 初始化 训练集特征 特征数据 语音智能 连接层 训练集 池化 卷积 分类 神经网络模型 双向循环 依次连接 语音分类 线性层 构建 收敛 | ||
本发明公开了一种语音智能分类方法及系统。该方法包括:获取训练集语音数据;对所述训练集语音数据进行处理,得到训练集特征数据;构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;获取测试集语音数据;对所述测试集语音数据进行处理,得到测试集特征数据;通过所述分类模型对所述测试集特征数据进行分类。本发明的方法或系统能够加快语音分类训练时的收敛速度,提高判断精度。
技术领域
本发明涉及语音分类领域,特别是涉及一种语音智能分类方法及系统。
背景技术
随着深度学习技术的发展,基于深度学习的语音分类技术正在逐渐应用到各个领域中。由于语音数据是一种时序数据,而循环神经网络适用于时序数据处理,所以循环神经网络是实现语音分类的核心。语音分类就是从给定的语音数据中提取特征,将提取的特征作为循环神经网络的输入数据对神经网络进行训练,达到判断语音所属类别的效果,其经常被用于语音识别,语音情感分析等方面。语音分类所使用的循环神经网络结构的设计往往会直接影响到语音分类的效果。传统循环神经网络应用于语音分类时往往存在着收敛速度慢,分类效果不好的缺点。
发明内容
本发明的目的是提供一种语音智能分类方法及系统,用以加快语音分类训练时的收敛速度,提高判断精度。
为实现上述目的,本发明提供了如下方案:
一种语音智能分类方法,所述方法包括:
获取训练集语音数据;
对所述训练集语音数据进行处理,得到训练集特征数据;
构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;
通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;
获取测试集语音数据;
对所述测试集语音数据进行处理,得到测试集特征数据;
通过所述分类模型对所述测试集特征数据进行分类。
可选的,所述对所述训练集语音数据进行处理,得到训练集特征数据,具体包括:
提取所述训练集语音数据的梅尔频率倒谱系数;
根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
可选的,所述通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型,具体包括:
通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断所述第二输出数据是否在误差范围阈值内;
若是,确定所述初始化模型为分类模型;
若否,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811000494.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于音频分类的音质设置方法
- 下一篇:交互设备





