[发明专利]一种跨模态唇语识别方法在审

申请号：	202110941080.0	申请日：	2021-08-17
公开（公告）号：	CN113851131A	公开（公告）日：	2021-12-28
发明（设计）人：	梁雪峰;黄奕洋	申请（专利权）人：	西安电子科技大学广州研究院
主分类号：	G10L15/25	分类号：	G10L15/25;G10L15/16;G10L15/20;G06K9/00;G06N3/04;G06N3/08
代理公司：	北京高航知识产权代理有限公司 11530	代理人：	乔浩刚
地址：	510700 广东省广州市黄***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种跨模态唇语识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种跨模态唇语识别方法，包括S1，数据预处理：获取视频数据的嘴唇区域和音频数据的特征矩阵；S2，模型训练：依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛；S3，模型部署：仅输入待识别的非训练数据视频序列，使用视觉识别分支获取说话人唇形特点，并对唇语特征进行标准化，最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下，能够提取到具有更好可区分性的视觉特征，特征提取的泛化性和鲁棒性更好，能够跨说话人使用，也无需为每个类别样本单独训练一组模型参数。

技术领域

本发明涉及识别领域，尤其涉及一种跨模态唇语识别方法。

背景技术

唇语识别是一种视觉语言识别技术，其主要利用视频中的唇部运动信息，结合语言先验知识和上下文信息的语言识别技术来实现。唇语识别在语言理解和交流中都起到重要作用，常在无法获得有效音频信息的情况下使用。它也具有极高的应用价值，可以被应用于言语障碍患者的治疗、安防领域、军用设备和人机交互当中。

传统的唇语识别方法的局限在于只关注视频输入信息，在没有额外经验知识引导的情况下无法学习到较好的视觉可分特征。因此，这些方法通常依赖大量有准确标签的数据，然而在现实生活中获取有标签数据的成本异常高昂。

发明内容

鉴于上述问题，本发明的目的在于提供一种跨模态唇语识别方法，包括

S1，数据预处理：

对于视频数据，首先识别脸部的68个关键点，并通过仿射变换将每张脸部图像标准化为正面视图，最后裁剪出嘴唇区域；

对于音频数据，首先将其下采样为16kHz，并转换为梅尔倒谱系数特征，然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵；

S2，模型训练：

S21，将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中，在每个分支的属性学习模块中进行说话人识别任务的训练；