[发明专利]一种跨模态唇语识别方法在审
申请号: | 202110941080.0 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113851131A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 梁雪峰;黄奕洋 | 申请(专利权)人: | 西安电子科技大学广州研究院 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L15/16;G10L15/20;G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京高航知识产权代理有限公司 11530 | 代理人: | 乔浩刚 |
地址: | 510700 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态唇语 识别 方法 | ||
本发明提供了一种跨模态唇语识别方法,包括S1,数据预处理:获取视频数据的嘴唇区域和音频数据的特征矩阵;S2,模型训练:依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛;S3,模型部署:仅输入待识别的非训练数据视频序列,使用视觉识别分支获取说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下,能够提取到具有更好可区分性的视觉特征,特征提取的泛化性和鲁棒性更好,能够跨说话人使用,也无需为每个类别样本单独训练一组模型参数。
技术领域
本发明涉及识别领域,尤其涉及一种跨模态唇语识别方法。
背景技术
唇语识别是一种视觉语言识别技术,其主要利用视频中的唇部运动信息,结合语言先验知识和上下文信息的语言识别技术来实现。唇语识别在语言理解和交流中都起到重要作用,常在无法获得有效音频信息的情况下使用。它也具有极高的应用价值,可以被应用于言语障碍患者的治疗、安防领域、军用设备和人机交互当中。
传统的唇语识别方法的局限在于只关注视频输入信息,在没有额外经验知识引导的情况下无法学习到较好的视觉可分特征。因此,这些方法通常依赖大量有准确标签的数据,然而在现实生活中获取有标签数据的成本异常高昂。
发明内容
鉴于上述问题,本发明的目的在于提供一种跨模态唇语识别方法,包括
S1,数据预处理:
对于视频数据,首先识别脸部的68个关键点,并通过仿射变换将每张脸部图像标准化为正面视图,最后裁剪出嘴唇区域;
对于音频数据,首先将其下采样为16kHz,并转换为梅尔倒谱系数特征,然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵;
S2,模型训练:
S21,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在每个分支的属性学习模块中进行说话人识别任务的训练;
S22,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在两个分支共用的对比学习模块中,利用说话人识别任务获取的表征,标准化语义特征,然后进行音视频跨模态对比学习;
S23,仅输入音频序列,去除说话人音色特点,准化语音特征,利用反向传播算法对语音识别分支的模型参数进行更新,以确保参与对比学习的中间音频特征S正确;
S24,仅输入视频序列,去除说话人唇形特点,标准化唇语特征,利用反向传播算法对唇语识别分支的模型参数进行更新;
重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛;S3,模型部署:
仅输入待识别的非训练数据视频序列,使用视觉识别分支,去除说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。
作为优选,所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块;
所述3D卷积模块用于获取唇部动作的短时特征;
所述第一递归神经网络模块用于建立唇部动作的长时依赖关系;
所述第一说话人特征提取模块用于提取不同说话人的唇形特征;
所述第一属性学习模块用于利用已获得的说话人唇形特征消除不同说话人的唇形差异;
所述对比学习模块用于使用跨音视频数据的自监督对比学习方法,使模型从视频数据自身的另一表现形式音频中获得先验知识,并引导视觉识别分支学习唇形特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学广州研究院,未经西安电子科技大学广州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110941080.0/2.html,转载请声明来源钻瓜专利网。