[发明专利]一种中文唇语识别建模单元集的构建方法在审
申请号: | 202110017780.0 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112766101A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 袁家斌;何珊 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈国强 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 识别 建模 单元 构建 方法 | ||
1.一种中文唇语识别建模单元集的构建方法,其特征在于,包括以下步骤:
步骤1,总结出若干种常见的中文唇语识别建模单元集,分析得到的若干种建模单元集各自的优缺点和适用性,得到其中表现最好的建模单元集,即中文音素;
步骤2,结合中文发音的视觉特点和步骤1提到的中文音素,建立一个名称为视觉拼音的中文唇语识别建模单元集;
步骤3,为了确定步骤2中的视觉拼音组成,首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;
步骤4,以步骤1提到的中文音素作为建模单元,将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型,得到中文音素序列;
步骤5,重复步骤3和步骤4,为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵,对中文音素的混淆程度进行归类;
步骤6,通过对中文发音规律的总结,在步骤5所得归类结果的基础上进行补充和调整,得到最终的视觉拼音;
步骤7,将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中,比较模型的性能表现,得出视觉拼音更适合中文唇语的解析。
2.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述步骤1中的若干种常见的中文唇语识别建模单元集包括:词、音节、声韵母和中文音素。
3.根据权利要求2所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述中文音素有两种分类:辅音和元音,其中:辅音包含b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,ng;元音包含a,o,e,i,u,ü,ê,-i[前],-i[后],er。
4.根据权利要求1所述的一种新的中文唇语识别建模单元集的构建方法,其特征在于:所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3,采用非线性激活Selu函数,所有的最大池化stride为1×2×2。
5.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述步骤4中的序列到序列模型分为编码器和解码器两个部分,其中,编码部分是256维的2层GRU网络,用于将嘴唇特征向量编码成特定内容向量,解码部分是512维的单向GRU网络,用以解决每一时刻的嘴唇视频帧随着时间变化的运动特征问题和未知长度的输入与输出的对齐问题,并将编码器输出的内容向量解码成最终的中文音素序列。
6.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述步骤5中对中文音素的归类就是对中文发音的视觉呈现进行归类,实则是对汉语音素的归类,汉语音素分为元音和辅音,辅音中包含了所有的声母,在中文音素中,元音在嘴型上是不容易混淆的,所以混淆矩阵中得到部分辅音在视觉上非常相似,归类后得到最具混淆性的几组中文音素为:(1)b,p,m,f;(2)d,t,n,l;(3)zh,ch,sh,r;(4)g,k,h;(5)j,q,x;(6)z,c,s。
7.根据权利要求6所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述步骤6中经过补充和调整后得到的最终视觉拼音分类如下:视觉拼音B,对应b,p,m;视觉拼音F,对应f;视觉拼音D,对应d,t,声母n,l;视觉拼音G,对应g,k,h;视觉拼音J,对应j,q,x;视觉拼音R,对应zh,ch,sh,r,zhi,chi,shi,ri;视觉拼音Z,对应z,c,s,zi,ci,si;视觉拼音I,对应i,y,yi;视觉拼音U,对应u,w,wu;视觉拼音V,对应ü,yu;视觉拼音a,对应a;视觉拼音o,对应o;视觉拼音e,对应e;视觉拼音E,对应ê;视觉拼音r,对应er;视觉拼音n,对应韵母n;视觉拼音N,对应ng。
8.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述步骤7中的中文唇语识别系统基于两种模型,分别是CHSLR-VP和WAS。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110017780.0/1.html,转载请声明来源钻瓜专利网。