[发明专利]一种基于音调的级联序列到序列模型的中文唇语识别方法在审
| 申请号: | 201911259483.6 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN111178157A | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 宋明黎;赵雅;许睿 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/151;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 音调 级联 序列 模型 中文 识别 方法 | ||
1.基于音调的级联序列到序列模型的中文唇语识别方法,包含以下步骤:
1)准备实验数据;
使用中文唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点;利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐;截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图;以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧;用x=[x1,x2,…,xI]表示唇部图像序列,I为序列长度;利用汉字转拼音工具,获取中文唇语识别数据集中的目标汉字序列y=[y1,y2,…yJ]对应的拼音序列p=[p1,p2,…pJ]和音调序列t=[t1,t2,…tJ];
2)建立拼音序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建基于注意力机制的序列到序列模型;应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、视频编码模块、拼音解码模块;
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
fi=CNN(xi) (1)
视频编码模块:采用循环神经网络(RNN)对每一步输入图像特征进行时序特征的提取:
其中为第i时刻视频编码模块的隐藏层特征;
拼音解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征和已解码生成的拼音序列,预测当前时间步的拼音:
其中为第i时刻音频解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数,具体表示如下:
3)训练拼音序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建拼音序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对拼音序列预测子模型进行训练;误差损失函数如下所示:
Lp=-∑ilog P(pi|p<i,x) (7)
4)建立音调序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建基于注意力机制的序列到序列模型;应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块:图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块;
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同;
视频编码模块:与拼音序列预测子模型中的视频编码模块相同;
拼音编码模块:采用循环神经网络(RNN)对每一步输入音频进行时序特征的提取:
其中为第i时刻拼音编码模块的隐藏层特征;
音调解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征和已解码生成的音调序列,预测当前时间步的音调:
其中为第i时刻音调解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数;
5)训练音调序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建音调序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对音调序列预测子模型进行训练;误差损失函数如下所示:
Lt=-∑ilog P(ti|t<i,x,p) (13)
6)建立汉字序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建基于注意力机制的序列到序列模型;应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块:图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块;
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同;
视频编码模块:与拼音序列预测子模型中的视频编码模块相同;
拼音编码模块:与音调序列预测子模型中的拼音编码模块相同;
音调编码模块:采用循环神经网络(RNN)对每一步输入音调进行时序特征的提取:
其中为第i时刻音调编码模块的隐藏层特征;
汉字解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征、音调编码模块的隐藏层特征和已解码生成的汉字序列,预测当前时间步的汉字:
其中为第i时刻汉字解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数;
7)训练汉字序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练;误差损失函数如下所示:
Lc=-∑ilog P(ci|c<i,x,p,t) (20)
8)建立唇语识别模型;
将上述拼音序列预测子模型的拼音解码模块输出作为汉字序列预测子模型拼音编码模块的输入,即:
将上述音调序列预测子模型的音调解码模块输出作为汉字序列预测子模型音调编码模块的输入,即:
其中MLP为多层感知机;
9)训练唇语识别模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练;误差损失函数如下所示:
L=Lp+Lt+Lc (23)
10)获得中文唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911259483.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灵敏放大器电路
- 下一篇:一种信用评估方法和装置





