[发明专利]一种基于深度音频特征的构音障碍严重程度估计方法在审
申请号: | 201810223054.2 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108597542A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 李鹏乾;李艳雄;李锦彬 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/30;G10L25/27;G10L25/03;G10L25/12 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 王东东 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度音频特征的构音障碍严重程度估计方法,包括:提取声学特征;将上述声学特征输入带瓶颈层的深度神经网络,从瓶颈层提取深度音频特征;将上述深度音频特征作为输入,采用Baum‑Welch算法训练的隐马尔可夫模型;最后将测试语音样本的深度音频特征依次输入上述训练好的四个隐马尔可夫模型,采用Viterbi算法得到四个输出概率,输出概率最大的模型所对应的类别也就是构音障碍严重程度即为判决结果。本发明采用的深度音频特征是一种深层变换特征,相比于传统声学特征能更有效刻画构音障碍语音的特性差异,在构音障碍严重程度估计中可以获得更加优异的效果。 | ||
搜索关键词: | 音频特征 程度估计 声学特征 隐马尔可夫模型 输出概率 瓶颈 测试语音 判决结果 神经网络 特性差异 输入带 样本 刻画 语音 | ||
【主权项】:
1.一种基于深度音频特征的构音障碍严重程度估计方法,其特征在于,包括如下步骤:S1、对语音数据进行预处理,提取声学特征,所述声学特征包括线性预测系数、基频、基频微扰、振幅、振幅微扰,过零率及共振峰,得到语音数据特征矩阵F=[线性预测系数,基频,基频微扰,振幅,振幅微扰,过零率,共振峰];S2、将语音数据特征矩阵F作为输入,通过无监督预训练和有监督精确调整两个步骤构造带瓶颈层的深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取语音数据所对应的深度音频特征;S3、将训练语音数据的深度音频特征作为输入,采用Baum‑Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型;S4、采用S2步骤提取测试语音的深度音频特征,采用Viterbi算法计算深度音频特征输入每个隐马尔可夫模型的输出概率,输出概率最大的模型对应的类别作为判决结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810223054.2/,转载请声明来源钻瓜专利网。