[发明专利]对视频中唇语图片识别的方法有效

申请号：	201911345728.7	申请日：	2019-12-24
公开（公告）号：	CN111125437B	公开（公告）日：	2023-06-09
发明（设计）人：	程林涛;卫浩;刘嵩	申请（专利权）人：	四川新网银行股份有限公司
主分类号：	G06V40/16	分类号：	G06V40/16;G06V10/74;G06V10/82;G06V20/40;G06N3/0464;G06N3/08
代理公司：	成都智言知识产权代理有限公司 51282	代理人：	濮云杉
地址：	610094 四川省成都市成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频中唇语图片识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及对视频中唇语图片识别的方法，包括：A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断，并设置结构相似度差异的阈值，当两张不同帧的图片的结构相似度达到所述阈值后，提取出这两张图片；所有提取出的图片按帧序号形成图片序列；B.通过人脸识别模型对提取的所有图片中的人脸进行定位，获取人脸坐标，再通过人脸坐标提取人脸图片，按照帧序号得到人脸序列图片；C.通过YOLOV3算法对人脸序列图片中的每个人脸进行嘴唇定位，获取用于唇语识别的嘴唇图片序列。本发明能够大幅度提高模型的识别表现和模型预测的准确性，并明显降低了模型的训练和预测的计算量，以及降低了外界拍摄角度、拍摄远近等因素对模型训练的影响。

技术领域

本发明涉及对图像的处理方法，具体讲是对视频中唇语图片识别的方法。

背景技术

唇语识别是指利用说话人嘴唇运动的序列图片建立深度学习模型来识别说话内容，是目前人工智能领域研究的热点问题。

人工智能的三要素分别为数据、算力和算法。在人工智能领域中，大量高质量的数据是学习模型取得优异成绩的前提，因此如何从视频中精准捕捉高质量的嘴唇运动序列图片对后续唇语建模至关重要。

对于唇语序列图片的提取，目前常见的做法是：

已知视频是由一帧一帧的图片构成的，普通视频大概1秒有24帧～25帧图片，常见的提取流程为，第一步从视频中每隔n帧(n是一个经验值)提取一张图片，最终从视频中提取一份序列图片。第二步对该序列图片进行人脸检测，获取人脸的坐标，从而得到人脸的序列图片。第三步在人脸的的序列图片的基础上进行裁剪得到嘴唇序列图片，具体流程和效果如图1所示。

上述方法存在的问题如下：

问题1：第一步中，间隔帧数n的阈值是一个经验值，如果设置的过大，从视频中提取的图片数会很少，时序信息将会大量丢失。如果阈值设置的过小，那么将会从视频中提取大量相似的图片，冗余信息将会干扰模型训练造成计算资源的浪费。

问题2：由于每个人说话的速度都不一样，用一个统一的阈值对所有的视频样本进行图片提取，将会导致同一个词语在不同视频中对应提取的图片数不统一，这也会干扰后续的模型训练。另一方面，模型在预测的时候也需要进行嘴唇序列图片提取，由于视频样本的随机性，同一阈值下提取的嘴唇图片数或高或低也会大幅降低模型预测的精度。

问题3：开放场景下每个人都是在不同环境下录制的视频，唇语序列图片如果单纯只提取鼻子以下部分的人脸图片(如图1中以鼻子为基准进行识别和提取)进行模型训练，仍然会受到各种外界因素的影响，如：拍摄角度、拍摄远近、背景等因素，从而降低模型的预测精度。

发明内容

本发明提供了一种对视频中唇语图片识别的方法，以提高模型的识别表现，并降低模型的训练和预测的计算量。

对视频中唇语图片识别的方法，包括：

A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断，并设置结构相似度差异的阈值，当两张不同帧的图片的结构相似度达到所述阈值后，提取出这两张图片；所有提取出的图片按帧序号形成图片序列；

B.通过人脸识别模型对提取的所有图片中的人脸进行定位，获取人脸坐标，再通过人脸坐标提取人脸图片，按照帧序号得到人脸序列图片；

C.通过YOLOV3算法(一种目标检测算法)对人脸序列图片中的每个人脸进行嘴唇定位，获取用于唇语识别的嘴唇图片序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司，未经四川新网银行股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911345728.7/2.html，转载请声明来源钻瓜专利网。