[发明专利]基于神经网络的汉语声韵母可视化方法有效

申请号：	201610121430.8	申请日：	2016-03-03
公开（公告）号：	CN105788608B	公开（公告）日：	2019-03-26
发明（设计）人：	韩志艳;王健	申请（专利权）人：	渤海大学
主分类号：	G10L21/10	分类号：	G10L21/10;G10L25/30
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	梁焱
地址：	121013 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经网络汉语声韵可视化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

基于神经网络的汉语声韵母可视化方法，步骤为：获取语音信号；对语音信号进行预处理；提取语音信号特征参数，进行PCA降维；设计并训练小波神经网络；小波神经网络输出的64个二进制编码依次对应显示屏上8×8个方格，其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的47个声韵母，当某个声韵母的语音信号综合特征向量输入小波神经网络时，小波神经网络的输出即为该声韵母的位置信息；将47个声韵母划分为12组，并分别将12组声韵母对应的方格的RGB赋不同的值，来获取颜色信息；合成上述位置信息和颜色信息，实现声韵母的可视化。该方法便于聋哑人记忆，具有良好的鲁棒性和易懂性，聋哑人可以准确辨识出可视化图像所对应的发音。

技术领域

本发明涉及一种汉语音声母和韵母的可视化方法，特别涉及一种基于神经网络的汉语声韵母可视化方法。

背景技术

语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，在人们的日常生活中是不可或缺的。但对于聋哑人来说，语言交流是一件无法实现的事情。研究表明，人类在感知外界的过程中，接收信息速率最快、获取信息最多的是视觉，如果可以从视觉上感知语音，这对聋哑人进行语言训练，建立、完善听觉认知都有巨大的帮助。

1947年R.K.Potter和G.A.Kopp等人提出了一种语音可视化方法—语谱图，随后有不同的语音研究专家开始研究改进这种语音可视化方法，比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对听力障碍者进行训练的实时的语谱图系统，以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法，但是显示的语谱图的专业性很强，而且很难辨别记忆。尤其是对于同一个语音不同的人来说，甚至是同一个语音同一个人来说都有可能造成语谱图的变化，对于不同环境下录制的语音信号其鲁棒性能更为不好。

此外，还有一些学者基于发音器官的运动变化以及面部表情的变化来实现语音可视化，有效剖析人的发音过程，但就其语音可懂度而言，难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。

发明内容

针对现有技术的不足，本发明提出基于神经网络的汉语声韵母可视化方法。该方法的具体步骤如下：

步骤1、语音信号获取：利用麦克风输入语音数据，并由处理单元采样量化后获得相应的语音信号。

步骤2、语音信号预处理：对获取的语音信号进行预加重、分帧加窗和端点检测。

步骤3、语音信号特征参数提取。

步骤3.1、采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征，得到每帧信号的共振峰特征值F1，F2，F3，F4；

步骤3.2、计算基于小波包变换的语音信号鲁棒特征参数WPTC：WPTC1～WPTC20。

步骤3.3、计算基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC：PMUSIC-MFCC1～PMUSIC-MFCC12。

步骤3.4、计算Mel频率倒谱系数MFCC：MFCC1～MFCC12。

步骤4、PCA降维：利用主成分分析法PCA对上述语音信号特征参数进行降维处理，获得语音信号综合特征向量。

步骤5、神经网络设计：采用三层小波神经网络，其中输入层有12个神经元，隐含层有8个神经元，输出层有6个神经元，利用M个语音信号综合特征向量训练该小波神经网络，期望误差为P，最大迭代次数为Q，若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数，则停止训练小波神经网络，完成神经网络设计。