[发明专利]唇语合成方法、装置、电子设备及存储介质有效
申请号: | 201810688117.1 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108831463B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 庄晓滨;戴长军;吴丹;林绪虹;闫理 | 申请(专利权)人: | 广州方硅信息技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L17/00;G10L17/18;G10L25/24 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇;王宝筠 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 合成 方法 装置 电子设备 存储 介质 | ||
1.一种唇语合成方法,其特征在于,包括:
对语音信号进行语音识别,得到语音识别结果,所述语音识别结果中包括识别到的发音,以及所述发音在所述语音信号中的第一时间区间;所述发音为汉字的拼音;
依据所述发音对所述第一时间区间内的语音信号进行音素识别,得到音素识别结果,所述音素识别结果包括:识别到的音素以及识别到的音素在语音信号中的第二时间区间;
依据预设的音素与嘴型的对应关系,获取识别到的每个音素对应的嘴型;其中,所述音素对应的嘴型为人表达出该音素时嘴唇的动作;
对于识别到的每一个音素,将该音素在语音信号中的第二时间区间的起始时间点提前预设时长,得到该音素对应的第三时间区间;
按照该音素对应的第三时间区间输出该音素对应的嘴型;
若相邻两个第三时间区间存在交叉区间,将所述相邻两个第三时间区间对应的两个嘴型的同一部位的特征点数据做平均,得到所述相邻两个第三时间区间对应的两个嘴型的过渡位置的特征点数据。
2.根据权利要求1所述的方法,其特征在于,所述对语音信号进行语音识别,包括:
将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
利用预先训练好的神经网络对所获取的若干MFCC特征向量进行处理,得到所述语音识别结果。
3.根据权利要求2所述的方法,其特征在于,所述将语音信号分为若干语音信号帧,并提取每一语音信号帧的MFCC特征向量,包括:
对所述语音信号进行预加重;
将预加重后的语音信号分为若干个语音信号帧,并对每个所述语音信号帧做短时傅里叶变换,得每个所述语音信号帧的频谱;
在所述语音信号帧的频谱中提取K个MFCC,并根据所述K个MFCC系数构建所述语音信号帧对应的M维MFCC特征向量;
对所述M维MFCC特征向量进行归一化,使得所述M维MFCC特征向量在每个维度上均服从相同的分布。
4.根据权利要求3所述的方法,其特征在于,所述依据所述发音对所述第一时间区间内的语音信号进行音素识别,包括:
获取所述第一时间区间内的语音信号帧的MFCC特征向量;
将获取的MFCC特征向量输入预先训练好的隐马尔科夫模型,得到每个语音信号帧的音素识别结果;其中,第一语音信号帧对应的音素识别结果包括:所述第一语音信号帧被识别为所述发音中的各个音素的概率;
将最大概率对应的音素确定为所述第一语音信号帧的音素识别结果。
5.根据权利要求2所述的方法,其特征在于,所述神经网络包括:
三层卷积层,与所述三层卷积层连接的三个双向门控循环单元,以及与所述双向门控循环单元连接的一层全连接层;
所述全连接层的输出单元的个数为不带声调的中文发音的个数。
6.一种唇语合成装置,其特征在于,包括:
第一识别模块,用于对语音信号进行语音识别,得到语音识别结果,所述语音识别结果中包括识别到的发音,以及所述发音在所述语音信号中的第一时间区间;所述发音为汉字的拼音;
第二识别模块,用于依据所述发音对所述第一时间区间内的语音信号进行音素识别,得到音素识别结果,所述音素识别结果包括:识别到的音素以及识别到的音素在语音信号中的第二时间区间;
唇语合成模块,用于依据预设的音素与嘴型的对应关系,获取识别到的每个音素对应的嘴型;对于识别到的每一个音素,将该音素在语音信号中的第二时间区间的起始时间点提前预设时长,得到该音素对应的第三时间区间;按照该音素对应的第三时间区间输出该音素对应的嘴型;若相邻两个第三时间区间存在交叉区间,将所述相邻两个第三时间区间对应的两个嘴型的同一部位的特征点数据做平均,得到所述相邻两个第三时间区间对应的两个嘴型的过渡位置的特征点数据;其中,所述音素对应的嘴型为人表达出该音素时嘴唇的动作。
7.一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1-5任一项所述的唇语合成方法。
8.一种电子设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一项所述的唇语合成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州方硅信息技术有限公司,未经广州方硅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810688117.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车载语音识别方法及装置
- 下一篇:基于语音控制的眼罩和基于语音控制眼罩的方法