[发明专利]一种语音分类方法、装置、服务器及存储介质有效
| 申请号: | 201810726469.1 | 申请日: | 2018-07-04 |
| 公开(公告)号: | CN108962231B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 吕志高;张文明;陈少杰 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/30;G10L15/02;G10L15/04;G10L25/18;G10L25/24;G10L25/45;G06N3/08 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 分类 方法 装置 服务器 存储 介质 | ||
1.一种语音分类方法,其特征在于,包括:
利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵,并将所述MFCC特征矩阵转换为目标图像;
基于深度学习模型,提取所述目标图像的目标图像特征;
将所述目标图像特征输入至预先训练好的语音分类器中,并输出所述目标短语音的类别;
其中,所述将所述MFCC特征矩阵转换为目标图像,包括:
对所述MFCC特征矩阵中的每个元素进行归一化处理;
利用权重255对经过归一化处理后的所述每个元素做乘积处理,使得经过乘积处理后的所述MFCC特征矩阵中的每个元素的取值均在0到255之间;
根据第一预设规则调整所述MFCC特征矩阵的行列比值,使得所述行列比值与所述目标图像的预设长宽比值相同;
将调整行列比值后的所述MFCC特征矩阵转换为灰度图像,其中,调整行列比值后的所述MFCC特征矩阵中的每个元素对应所述灰度图像中的一个灰度值;
将所述灰度图像转换为RGB三原色图像,将所述RGB三原色图像作为所述目标图像;
其中,所述利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵,包括:
根据预设的帧长和帧移,将所述目标短语音划分为各语音帧;
利用所述MFCC算法分别对所述各语音帧进行MFCC特征提取,得到所述各语音帧对应的MFCC特征向量;
将各所述MFCC特征向量拼接为MFCC特征矩阵,将所述MFCC特征矩阵作为所述目标短语音的MFCC特征矩阵;
其中,根据预设的帧移使相邻两帧之间存在重叠区域。
2.根据权利要求1所述的方法,其特征在于,在将所述目标图像特征输入至预先训练好的语音分类器中,并输出所述目标短语音的类别之前,还包括:
对所述目标图像特征每个维度上的元素进行归一化处理。
3.根据权利要求1所述的方法,其特征在于,在将所述目标图像特征输入至预先训练好的语音分类器中,并输出所述目标短语音的类别之前,还包括:
根据历史短语音确定与所述历史短语音相对应的历史图像的图像特征;
将所述图像特征输入预先建立的语音分类器中,并输出所述历史短语音的类别;
基于输出的所述类别与期望类别对所述语音分类器的模型参数进行调整。
4.根据权利要求1所述的方法,其特征在于,在基于深度学习模型,提取所述目标图像的目标图像特征之前,还包括:
根据历史短语音确定与所述历史短语音相对应的历史图像;
基于至少一张所述历史图像生成训练样本集,将所述训练样本集输入到预先建立好的深度学习模型中,输出所述历史图像的历史图像特征;
根据输出的所述历史图像特征与期望历史图像特征之间的差异对所述深度学习模型的模型参数进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810726469.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏组件及其制备方法
- 下一篇:对测定器进行校准的方法和箱体





