[发明专利]语音唇形拟合方法、系统及存储介质有效
申请号: | 201911195998.4 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942502B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 黄以华;张睿 | 申请(专利权)人: | 中山大学 |
主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40;G10L15/16;G10L15/25 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 黄启文 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 拟合 方法 系统 存储 介质 | ||
1.语音唇形拟合方法,其特征在于:包括以下内容:
采集目标人物视频数据集的图像数据和语音数据;
提取所述图像数据中目标人物的唇形特征向量;
提取所述语音数据中目标人物的语音特征向量;
以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合;
所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成;
所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量;
所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量;
E、向所述多尺度融合卷积神经网络输入提取的语音特征向量;
F、根据多尺度融合卷积神经网络的输出计算损失函数,并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重;
G、重复步骤E、F直至损失函数值符合要求。
2.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。
3.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物视频数据集通过三维结构光深度相机采集。
4.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述多尺度融合卷积神经网络包括层二维卷积层、加权融合层和全连接层;层二维卷积层首尾连接,加权融合层的输入端与层二维卷积层的输出端连接,加权融合层的输出端与全连接层的输入端连接;
其中每一层的二维卷积层的输出特征图大小和输入特征图大小相同;
语音特征向量通过首端的二维卷积层输入,二维卷积层的输出特征图分为两路传输,一路传到下一层二维卷积层,另一路直接传输到加权融合层缓存;当尾端的二维卷积层的输出特征图生成并传输到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小加和输出;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量,基于所述唇形特征的预测向量拟合唇形。
5.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述训练的损失函数计算如下:
其中,loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值,p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量,g(i)表示第i个语音特征向量对应的真实唇形特征向量值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911195998.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能物流运输推车
- 下一篇:基于概率分析的发光测试平台及方法