[发明专利]一种基于音调的级联序列到序列模型的中文唇语识别方法在审

申请号：	201911259483.6	申请日：	2019-12-10
公开（公告）号：	CN111178157A	公开（公告）日：	2020-05-19
发明（设计）人：	宋明黎;赵雅;许睿	申请（专利权）人：	浙江大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06F40/151;G06N3/04;G06N3/08
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音调级联序列模型中文识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于音调的级联序列到序列模型的中文唇语识别方法，包含以下步骤：

1)准备实验数据；

使用中文唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点；利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐；截取对齐后的人脸图像的下半部分，并将彩色图转化为灰度图；以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧；用x＝[x₁,x₂,…,x_I]表示唇部图像序列，I为序列长度；利用汉字转拼音工具，获取中文唇语识别数据集中的目标汉字序列y＝[y₁,y₂,…y_J]对应的拼音序列p＝[p₁,p₂,…p_J]和音调序列t＝[t₁,t₂,…t_J]；

2)建立拼音序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]，构建基于注意力机制的序列到序列模型；应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块：图像特征提取模块、视频编码模块、拼音解码模块；

图像特征提取模块：采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取

f_i＝CNN(x_i) (1)

视频编码模块：采用循环神经网络(RNN)对每一步输入图像特征进行时序特征的提取：

其中为第i时刻视频编码模块的隐藏层特征；

拼音解码模块：采用循环神经网络(RNN)，基于视频编码模块的隐藏层特征和已解码生成的拼音序列，预测当前时间步的拼音：

其中为第i时刻音频解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数，具体表示如下：

3)训练拼音序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]，构建拼音序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对拼音序列预测子模型进行训练；误差损失函数如下所示：

L_p＝-∑_ilog P(p_i|p_＜i,x) (7)

4)建立音调序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、和音调序列t＝[t₁,t₂,…t_J]，构建基于注意力机制的序列到序列模型；应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块：图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块；

图像特征提取模块：与拼音序列预测子模型中的图像特征提取模块相同；

视频编码模块：与拼音序列预测子模型中的视频编码模块相同；

拼音编码模块：采用循环神经网络(RNN)对每一步输入音频进行时序特征的提取：

其中为第i时刻拼音编码模块的隐藏层特征；

音调解码模块:采用循环神经网络(RNN)，基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征和已解码生成的音调序列，预测当前时间步的音调：

其中为第i时刻音调解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数；

5)训练音调序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、和音调序列t＝[t₁,t₂,…t_J]，构建音调序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对音调序列预测子模型进行训练；误差损失函数如下所示：

L_t＝-∑_ilog P(t_i|t_＜i,x,p) (13)

6)建立汉字序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、音调序列t＝[t₁,t₂,…t_J]和目标汉字序列y＝[y₁,y₂,…y_J]，构建基于注意力机制的序列到序列模型；应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块：图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块；

图像特征提取模块：与拼音序列预测子模型中的图像特征提取模块相同；

视频编码模块：与拼音序列预测子模型中的视频编码模块相同；

拼音编码模块：与音调序列预测子模型中的拼音编码模块相同；

音调编码模块：采用循环神经网络(RNN)对每一步输入音调进行时序特征的提取：

其中为第i时刻音调编码模块的隐藏层特征；

汉字解码模块：采用循环神经网络(RNN)，基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征、音调编码模块的隐藏层特征和已解码生成的汉字序列，预测当前时间步的汉字：

其中为第i时刻汉字解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数；

7)训练汉字序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、音调序列t＝[t₁,t₂,…t_J]和目标汉字序列y＝[y₁,y₂,…y_J]，构建汉字序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对汉字序列预测子模型进行训练；误差损失函数如下所示：