[发明专利]融合声学特征和发音运动特征的发音评估方法和系统在审
申请号: | 201710708049.6 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107578772A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 党建武;原梦;王龙标 | 申请(专利权)人: | 天津快商通信息技术有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/25;G10L25/24;G10L25/66 |
代理公司: | 厦门果汁知识产权代理事务所(普通合伙)35227 | 代理人: | 乐珠秀 |
地址: | 300354 天津市津南区辛庄*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 声学 特征 发音 运动 评估 方法 系统 | ||
1.一种融合声学特征和发音运动特征的发音评估方法,其特征在于,包括以下步骤:
(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;
(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;
(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;
(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。
2.根据权利要求1所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。
3.根据权利要求1或2所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:所述的步骤(10)中进行采集音频数据和发音运动数据,是利用电磁式发音动作描迹系统进行采集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据;其中,所述发音器官包括嘴唇,所述发音运动数据包括嘴唇运动数据。
4.根据权利要求3所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述发音运动数据提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标原点,计算嘴唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四个空间传感器的三维坐标距离x,y,z作为运动特征,每一个采样点作为一帧,对每帧数据按如下公式提取发音运动特征:
lip=[x1...x4,y1...y4,z1...z4]T;
其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴角运动数据、右嘴角运动数据。
5.根据权利要求1或2所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:所述的步骤(20)中进行特征融合的处理,是根据所述音频数据和所述发音运动数据的采样率进行设置所述声学特征和所述发音运动特征的窗长,根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述发音运动特征进行特征融合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津快商通信息技术有限责任公司,未经天津快商通信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710708049.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法及装置、存储介质、电子设备
- 下一篇:一种语种的快速识别方法