[发明专利]一种半监督语音特征可变因素分解方法有效

专利信息
申请号: 201410229537.5 申请日: 2014-05-27
公开(公告)号: CN104021373B 公开(公告)日: 2017-02-15
发明(设计)人: 毛启容;黄正伟;薛文韬;于永斌;詹永照;苟建平;邢玉萍 申请(专利权)人: 江苏大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 江苏纵联律师事务所32253 代理人: 蔡栋
地址: 212013 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种半监督语音特征可变因素分解方法,把语音特征分成四类情感相关特征、性别相关特征、年龄相关特征、包括噪声和语种的其他因素相关特征。首先,对语音进行预处理得到语谱图,不同尺寸的语谱块输入无监督特征学习网络SAE,预训练得到不同尺寸的卷积核,然后分别用不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y。y作为半监督卷积神经网络的输入,通过最小化四个不同的损失函数项将y分解成四类特征。本发明解决了情感、性别、年龄语音特征相互混杂导致识别准确率不高的问题,可分别用于基于语音信号的不同识别需求,还可以用于分解更多因素。
搜索关键词: 一种 监督 语音 特征 可变 因素 分解 方法
【主权项】:
一种半监督语音特征可变因素分解方法,其特征在于包括下列步骤:步骤一,预处理:对语音样本进行预处理得到语谱图,再采用PCA进行主成份分析降维以及白化,从中提取出不同尺寸的语谱块;步骤二,无监督的局部不变特征学习:将所述语谱块作为无监督特征学习SAE的输入,通过输入不同尺寸的语谱块,预训练得到不同尺寸的卷积核,然后分别用所述不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对所述特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y;步骤三,基于卷积神经网络的半监督特征学习:将所述局部不变特征y作为半监督学习算法的输入,利用基于卷积神经网络的半监督学习的方法,通过四个不同的损失函数将局部不变特征y分解成四类特征;所述四类特征包括情感相关特征、性别相关特征、年龄相关特征、以及包括噪声和语种的其他因素相关特征;所述半监督学习的损失函数由重构误差函数、判别损失函数、正交损失函数、显著性损失函数四部分组成;对于所述重构误差函数,所述四类特征都要参与重构局部不变特征y,误差采用均方误差;对于所述判别损失函数,先对有标签的数据进行类别预测,然后计算预测标签和真实标签之间的差异作为判别损失函数的值;对于所述正交损失函数,目的是使所述四类特征相互正交,表示输入局部不变特征y的不同的方向;对于所述显著性损失函数,目的是学习到仅体现识别目标类别之间的差异且更具有类别区分性的特征;通过最小化所述重构误差函数、判别损失函数、正交损失函数、显著性损失函数来获得四个损失函数的参数包括偏置和权重,从而得到所述四类特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410229537.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top