[发明专利]通过音素预测进行视觉语音识别在审
| 申请号: | 201980026370.3 | 申请日: | 2019-05-20 | 
| 公开(公告)号: | CN112041924A | 公开(公告)日: | 2020-12-04 | 
| 发明(设计)人: | B.希林格福德;I.A.阿萨埃尔;J.F.戈梅斯德弗雷塔斯 | 申请(专利权)人: | 渊慧科技有限公司 | 
| 主分类号: | G10L15/25 | 分类号: | G10L15/25;G06K9/00 | 
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 | 
| 地址: | 英国*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 通过 音素 预测 进行 视觉 语音 识别 | ||
用于执行视觉语音识别的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收包括多个视频帧的视频,其中每个视频帧描绘双唇;使用视觉语音识别神经网络来处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,其中所述视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间‑聚合神经网络层;其中可能标记的词汇表包括多个音素;以及使用所述输出分数来确定由所述视频中描绘的双唇所表达的词的序列。
背景技术
本说明书涉及视觉语音识别。
视觉语音识别是指处理描绘人的嘴唇的视频帧的序列,以基于视频帧中嘴唇的运动来预测人说出的词的序列。
视觉语音识别可以通过机器学习模型,例如神经网络模型,来执行。
发明内容
本说明书描述了一种系统,该系统被实现为一个或多个位置中的一个或多个计算机上执行视觉语音识别的计算机程序。
根据第一方面,提供了用于视觉语音识别的方法和对应的系统。该方法/系统包括接收包括多个视频帧的视频,其中每个视频帧描绘(特定人的)双唇。该方法/系统还包括根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络来处理视频,以针对输出序列中的每个输出位置为可能标记(token)的词汇表中的每个标记生成相应的输出分数。视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间-聚合神经网络层。可能标记的词汇表可以包括多个音素。该方法/系统还可以包括使用输出分数来确定由视频中描绘的特定人的双唇所表达的话语(音素);和/或使用输出分数来确定由视频中描绘的双唇所表达的词的序列。
在实施方式中,确定词的序列可以包括预测音素分布的序列(隐式地确定由双唇所表达的话语,即,音素),以及将音素分布的序列提供给解码器以产生词的序列。
该系统/方法的实施方式可以提供视觉语音识别的显著提高的准确性,并且易于适应不同的应用而无需重新训练。进一步的优点将在后面描述。该方法/系统的输出可以包括定义词的序列的数据,例如,文本数据,和/或词可以被例如使用文本转语音系统转换成可听语音以提供语音数据。
在一些实施方式中,体积卷积神经网络层包括多个三维(卷积)过滤器,即,具有在两个空间维度和时间维度上操作的内核的过滤器。这可以帮助捕获嘴唇形成音素时存在的时空关系。在一些实施方式中,视觉语音识别神经网络包括至少五个体积卷积神经网络层。
在一些实施方式中,时间-聚合神经网络层包括一个或多个循环神经网络层,具体来说是一个或多个长短期记忆神经网络层,更具体来说是双向长短期记忆神经网络层。这些可以与3D卷积层一起工作以在更长时间段内进行聚合。
在一些实施方式中,视觉语音识别神经网络包括例如在体积卷积神经网络层和/或时间-聚合神经网络层之间的交错的一个或多个组标准化层(group normalizationlayer)。这样的组标准化层可以在一组(过滤器)通道上进行标准化(normalization)。与例如批次标准化相比,这可以通过减少单元之间的通信促进在多个处理单元上分布计算,并且还可以帮助在训练期间提供更稳定的学习。
如前面所描述的,在一些实施方式中,使用输出分数来确定由视频中描绘的双唇所表达的话语或词的序列包括使用解码器处理输出分数以生成词的序列。解码器可以包括所谓的有限状态转换器(finite state transducer,FST)。在实施方式中,解码器可以执行包括移除重复音素和空格和/或将音素映射到词的操作,特别是使用例如具有退避(诸如Katz退避)的n元语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980026370.3/2.html,转载请声明来源钻瓜专利网。





