[发明专利]通过音素预测进行视觉语音识别在审
| 申请号: | 201980026370.3 | 申请日: | 2019-05-20 | 
| 公开(公告)号: | CN112041924A | 公开(公告)日: | 2020-12-04 | 
| 发明(设计)人: | B.希林格福德;I.A.阿萨埃尔;J.F.戈梅斯德弗雷塔斯 | 申请(专利权)人: | 渊慧科技有限公司 | 
| 主分类号: | G10L15/25 | 分类号: | G10L15/25;G06K9/00 | 
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 | 
| 地址: | 英国*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 通过 音素 预测 进行 视觉 语音 识别 | ||
1.一种用于视觉语音识别的方法,所述方法包括:
接收包括多个视频帧的视频,其中每个视频帧描绘双唇;
根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,
其中视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间-聚合神经网络层;
其中可能标记的词汇表包括多个音素;以及
使用输出分数来确定由所述视频中描绘的双唇所表达的词的序列。
2.如权利要求1所述的方法,其中确定词的序列包括:预测音素分布的序列,并将音素分布的序列提供给解码器以产生词的序列。
3.如权利要求1或2所述的方法,其中所述体积卷积神经网络层包括多个三维过滤器。
4.如权利要求1-3中的任一项所述的方法,其中所述时间-聚合神经网络层包括一个或多个循环神经网络层。
5.如权利要求4所述的方法,其中所述循环神经网络层包括一个或多个长短期记忆神经网络层。
6.如权利要求5所述的方法,其中所述长短期记忆神经网络层中的一个或多个是双向长短期记忆神经网络层。
7.如权利要求1-6中的任一项所述的方法,其中所述视觉语音识别神经网络包括一个或多个组标准化层。
8.如前述任一项权利要求所述的方法,其中使用输出分数来确定由所述视频中描绘的双唇所表达的词的序列包括:使用解码器来处理输出分数以生成词的序列。
9.如权利要求8所述的方法,其中所述解码器包括有限状态转换器。
10.如权利要求8-9中的任一项所述的方法,其中所述解码器执行操作,包括:
移除重复的音素和空白;以及
将音素映射到词,包括使用语言模型。
11.如权利要求10所述的方法,其中所述语言模型是具有退避的n元语言模型。
12.如权利要求1-11中的任一项所述的方法,其中所述视觉语音识别神经网络包括至少五个体积卷积神经网络层。
13.一种训练如权利要求1-12中的任一项中所述的视觉语音识别神经网络的方法,该方法包括:
生成包括多个训练示例的训练数据,每个训练示例包括:(i)包括多个训练视频帧的训练视频;以及(ii)来自可能音素的词汇表的音素的序列,所述生成包括,对于每个训练视频:
获得包括多个原始视频帧的原始视频和对应的音频数据;
使用音频数据从可能音素的词汇表确定音素的序列;以及
基于在相应原始视频帧中描绘的面部来确定每个训练视频帧;
在生成的训练数据上训练视觉语音识别神经网络,包括从视觉语音识别神经网络参数的初始值确定视觉语音识别神经网络参数的经训练的值。
14.如权利要求13所述的方法,其中使用音频数据从可能音素的词汇表确定音素的序列包括:
获得原始视频的转录;
使用经训练的自动语音识别算法来确定转录与音频数据的对准;以及
从对准的转录确定音素的序列。
15.如权利要求14所述的方法,还包括确定转录以特定自然语言表达。
16.如权利要求13-15中的任一项所述的方法,还包括确定原始视频的质量度量超过最小阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980026370.3/1.html,转载请声明来源钻瓜专利网。





