[发明专利]一种用于说话人无关的唇语识别方法及系统有效

专利信息
申请号: 202110226432.4 申请日: 2021-03-01
公开(公告)号: CN112949481B 公开(公告)日: 2023-09-22
发明(设计)人: 路龙宾;宁都;金小敏;滑文强;孙涛 申请(专利权)人: 西安邮电大学
主分类号: G06V40/20 分类号: G06V40/20;G06V10/82;G06N3/0464;G06N3/08
代理公司: 北京高沃律师事务所 11569 代理人: 刘凤玲
地址: 710121 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 说话 无关 识别 方法 系统
【说明书】:

发明涉及一种用于说话人无关的唇语识别方法及系统,所述方法包括:获取训练唇语图片序列;将训练唇语图片序列输入身份与语义深度耦合模型中,得到特征序列并计算各个网络的损失;以各种加权损失作为优化目标,对耦合模型和唇语预测网络进行迭代寻优,得到最优识别模型;将待测图片序列输入识别模型中,得到识别文本。本发明分别对唇语图片序列的身份特征与语义特征编码,以不同样本身份对比损失以及相同样本不同帧的身份差异损失对身份编码过程进行约束,以监督损失对语义编码过程进行约束,并采用身份与语义耦合重建网络对学习的身份与语义特征进行约束,有效的避免语义特征混入身份信息,提高了唇语识别模型在说话人无关条件下的识别准确率。

技术领域

本发明涉及智能人机交互技术领域,特别是涉及一种用于说话人无关的唇语识别方法及系统。

背景技术

唇语识别作为一种新兴的人机交互方式,是从视觉信息出发,通过分析唇部区域的动态变化来理解说话人语义。该技术可以很好的克服语音识别在噪声环境应用中存在的不足,有效的提高语义分析系统的可靠性能。唇语识别技术具有广阔的应用前景,它可用于各类噪声环境下语言交互的识别任务,例如医院、商场等嘈杂环境下语言识别。此外,唇语识别还可应用于聋哑人辅助语义理解,从而帮助聋哑人建立说话能力。

目前,唇语识别技术精度远未达到实际应用的需要。由于唇部发声是由说话人身份与说话内容在时空域内相互耦合作用而形成。不同说话人在唇部外观、说话方式等方面都存在巨大差异,甚至相同人在不同时刻、不同场景下的说话方式、语速等也存在差异。因此,在识别过程中,不同身份信息会对语义内容形成严重干扰。正是由于说话人身份信息与语义内容的高度耦合性,严重制约唇语识别系统精度的提升。

发明内容

本发明的目的是提供一种用于说话人无关的唇语识别方法及系统,能够解决由于说话人身份信息干扰对识别结果造成的影响,提高唇语识别的准确率。

为实现上述目的,本发明提供了如下方案:

一种用于说话人无关的唇语识别方法,包括:

获取多个说话人样本的训练唇语图片序列;

将多个所述训练唇语图片序列输入身份与语义深度耦合模型中,得到身份特征序列、语义特征序列和重建图像序列;所述身份与语义深度耦合模型包括:2D稠密卷积神经网络、3D稠密卷积神经网络和反卷积神经网络;所述2D稠密卷积神经网络用于编码所述训练唇语图片序列的身份特征,得到所述身份特征序列;所述3D稠密卷积神经网络用于编码所述训练唇语图片序列的语义特征,得到所述语义特征序列;所述反卷积神经网络用于对所述身份特征序列与所述语义特征序列进行重建耦合,得到所述重建图像序列;

根据所述身份特征序列中不同说话人样本的身份特征计算对比损失;

根据所述身份特征序列中相同说话人样本的不同帧的身份特征计算差异损失;

基于高斯分布方法计算所述语义特征序列的高斯分布差异损失;

根据所述身份特征序列和所述语义特征序列计算相关损失;

根据所述训练唇语图片序列和所述重建图像序列计算重建误差损失;

将所述语义特征序列输入唇语预测网络中,得到预测文本序列;

根据所述预测文本序列和真实文本序列计算监督损失;

以所述对比损失、所述差异损失、所述高斯分布差异损失、所述相关损失、所述重建误差损失和所述监督损失作为优化目标,对所述身份与语义深度耦合模型和所述唇语预测网络进行迭代寻优,得到最优唇语识别模型;

获取待识别唇语图片序列;

将所述待识别唇语图片序列输入最优唇语识别模型中,得到识别文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110226432.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top