[发明专利]融合声学特征和发音运动特征的发音评估方法和系统在审
申请号: | 201710708049.6 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107578772A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 党建武;原梦;王龙标 | 申请(专利权)人: | 天津快商通信息技术有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/25;G10L25/24;G10L25/66 |
代理公司: | 厦门果汁知识产权代理事务所(普通合伙)35227 | 代理人: | 乐珠秀 |
地址: | 300354 天津市津南区辛庄*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 声学 特征 发音 运动 评估 方法 系统 | ||
技术领域
本发明涉及发音评估技术领域,特别是一种融合声学特征和发音运动特 征的发音评估方法及其应用该方法的系统。
背景技术
言语的感知和生成是多重听觉器官、发音器官在短时间内协同工作的结 果。部分人由于先天性和外伤性造成脑部或神经受损,从而无法控制特定肌 肉发出正确语音,表现为发音、发声、共鸣、韵律异常,这就是构音障碍。
语音可懂度就是听众可以准确获得说话者语音信号表达信息的程度,对 于构音障碍的严重程度往往是通过语音的可懂度进行发音评估的,疾病越严 重,语音的可懂度也就越低。近年来,对于构音障碍的研究逐渐增多,但大 多是利用声学参数进行可懂度的分析,忽略了异常的发音器官运动才是造成 异常声音的源头,从而使得评估方法不够全面,评估结果不可靠。因此,制 定出一套可靠的、不依赖于主观评价的、客观准确的评价标准尤为重要。
发明内容
本发明为解决上述问题,提供了一种融合声学特征和发音运动特征的发 音评估方法和系统,其通过采集音频数据和对应的发音运动数据和分别提取 声学特征和对应的发音运动特征,并对该声学特征和发音运动特征进行融合 处理,从而得到更准确、更可靠的融合评估结果,使得发音评估更加客观准 确。
为实现上述目的,本发明采用的技术方案为:
一种融合声学特征和发音运动特征的发音评估方法,其包括以下步骤:
(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征, 对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运 动数据在时间上相对应;
(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征 融合的处理,得到融合特征;
(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;
(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。
优选的,还进一步根据所述声学特征和所述发音运动特征进行分别训练 得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声 学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评 估结果进行策略融合的处理,得到策略融合评估结果。
优选的,所述的步骤(10)中进行采集音频数据和发音运动数据,是利 用电磁式发音动作描迹系统进行采集所述音频数据和发音运动数据,通过在 发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标 和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采 集时间上相对应的所述音频数据;其中,所述发音器官包括嘴唇,所述发音 运动数据包括嘴唇运动数据。
优选的,还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述 发音运动数据提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标 原点,计算嘴唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四 个空间传感器的三维坐标距离x,y,z作为运动特征,每一个采样点作为一 帧,对每帧数据按如下公式提取发音运动特征:
lip=[x1...x4,y1...y4,z1...z4]T;
其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴 角运动数据、右嘴角运动数据。
优选的,所述的步骤(20)中进行特征融合的处理,是根据所述音频数 据和所述发音运动数据的采样率进行设置所述声学特征和所述发音运动特征 的窗长,根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述 发音运动特征进行特征融合。
优选的,所述策略融合的处理,是通过对所述声学特征可懂度判别模型 的评估结果和所述发音运动特征可懂度判别模型的评估结果分别设置不同的 权重比例,根据该权重比例进行计算策略融合评估结果;其计算方法如下:
其中,LL表示所述策略融合评估结果,表示所述声学特征可 懂度判别模型的评估结果,表示所述发音运动特征可懂度判别模 型的评估结果,k表示评估结果的等级分类,w表示权重,argmax函数表示 寻找具有最大评分的参量。
对应的,本发明还提供一种融合声学特征和发音运动特征的发音评估系 统,其包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津快商通信息技术有限责任公司,未经天津快商通信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710708049.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法及装置、存储介质、电子设备
- 下一篇:一种语种的快速识别方法