[发明专利]利用非自回归模型与整合放电技术的唇语识别方法、系统有效
申请号: | 202011030959.1 | 申请日: | 2020-09-27 |
公开(公告)号: | CN111931736B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 赵洲;童鑫远;肖俊;吴飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 回归 模型 整合 放电 技术 识别 方法 系统 | ||
本发明公开了一种利用非自回归模型与整合放电技术的唇语识别方法、系统,属于唇语识别领域。主要包括如下步骤:1)获取唇语识别训练样本集;2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块,并在训练过程中引入两个辅助解码器。3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的模型生成唇语识别结果。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系,采用辅助连接时序分类解码器及辅助自回归解码器强化编码器的图像特征表示能力,采用噪声并行解码技术与字节对编码技术减轻唇语识别固有的歧义性问题,实现了良好的并行性,有效提升了唇语识别的性能。
技术领域
本发明涉及唇语识别,尤其涉及一种利用非自回归模型与整合放电技术的唇语识别方法、系统。
背景技术
唇语识别是计算机视觉领域中的一个难点,也是语音识别领域一个重要的发展方向,其目标是针对于给定的包含发言者嘴型的一段视频或者一组连续的图片,预测发言者正在说的话。
近年来唇语识别技术的准确度有了明显的提高。但是,现有的唇语识别技术主要建立在自回归模型的基础上,在识别过程中需要逐一生成目标词条,具有较高的推测延迟。而现有的非自回归模型面临着如下的一系列挑战。
(1)输入视频帧和目标文本词条之间的序列长度存在很大差异,因此在推断阶段很难估计输出序列的长度或定义正确的解码器输入。
(2)真实的目标序列分布在整个时间上显示出很强的相关性,但是非自回归模型通常会在条件上彼此独立地生成目标标记,因而会产生重复的单词。
(3)模型缺乏有效的对齐机制,因此若仅训练原始非自回归模型,编码器的特征表示能力很弱,更难以解决唇语识别中固有的歧义问题。
综上,现有的基于非自回归模型的唇语识别技术还不能有效地解决上述问题,导致了在文本复杂的情况下性能有限,难以满足高要求场景下的使用。
发明内容
本发明的目的在于解决现有技术中利用自回归模型进行唇语识别存在延迟性较高的问题,且目前针对唇语识别领域的非自回归模型技术还不成熟,依旧存在上述中的技术问题。因此,本发明提出一种利用非自回归模型与整合放电技术的唇语识别方法、系统。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系,采用一个辅助连接时序分类(CTC)解码器及一个辅助自回归解码器强化编码器的图像特征表示能力,采用NPD技术与BPE技术减轻唇语识别固有的歧义性问题,实现了良好的并行性,有效提升了唇语识别的性能。
为了实现上述目的,本发明具体采用如下技术方案:
一种利用非自回归模型与整合放电技术的唇语识别系统,包括如下步骤:
1)获取唇语识别训练样本集。
2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器。
具体为:
2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失。
2.2)将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对齐后的嵌入序列。
2.3)采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失;结合两个辅助损失和主损失,更新编码网络和解码网络的参数,得到最终的非自回归神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030959.1/2.html,转载请声明来源钻瓜专利网。