[发明专利]一种唇语识别方法、服务设备及存储介质在审
申请号: | 202011599830.2 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112633208A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 李绪送;成刚;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王英 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 方法 服务 设备 存储 介质 | ||
1.一种唇语识别方法,其特征在于,包括:
对目标对象进行视频采集;
从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;
若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;
获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,包括:
基于预先训练好的唇部图像分类模型,将所述唇部图像划分为发音帧或静默帧;
其中,根据以下方法得到所述唇部图像分类模型:
获取唇部样本图像,所述唇部样本图像关联有对应的类别标签,所述类别标签为根据所述唇部样本图像对应的语音信号标注的;
将所述唇部样本图像输入待训练的唇部图像分类模型,得到所述待训练的唇部图像分类模型输出的所述唇部样本图像的预测类别标签;
根据预先设置的损失函数确定所述预测类别标签与所述类别标签之间的损失,训练所述待训练的唇部图像分类模型的参数,得到所述唇部图像分类模型。
3.根据权利要求2所述的方法,其特征在于,根据所述唇部样本图像对应的语音信号对所述唇部样本图像进行标注,包括:
对所述唇部样本图像对应的所述语音信号进行声音活动检测,得到语音检测结果;所述语音信号为所述唇部样本图像和所述唇部样本图像之前的指定帧数内的语音片段;
若基于所述语音检测结果确定所述语音信号不为发音信号,则标注所述唇部样本图像为静默帧;
若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果小于或等于预设阈值,则标注所述唇部样本图像为静默帧;
若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果大于所述预设阈值,则标注所述唇部样本图像为发音帧。
4.根据权利要求1所述的方法,其特征在于,在所述对所述唇部图像进行分类识别之前,所述方法还包括:
对不同帧的唇部图像进行对齐处理。
5.根据权利要求4所述的方法,其特征在于,所述对不同帧的唇部图像进行对齐处理,包括以下中的任一种或组合:
采用平移变换和/或旋转变换处理方式调整唇部边界,以使不同帧的唇部图像的唇部边界平行于指定方向;
将不同唇部图像放缩到指定尺寸;
采用仿射变换方法处理不同帧的唇部图像,以使不同帧的唇部图像相对采集所述视频数据的镜头方位为预设方位。
6.根据权利要求1所述的方法,其特征在于,所述基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置,包括:
将所述连续多帧唇部图像中首次分类为发音帧的唇部图像确定为唇语的起始帧;并,
将所述连续多帧唇部图像中最后分类为发音帧的唇部图像确定为唇语的结束帧。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据以下方法确定所述最后分类为发音帧的唇部图像:
检测发音帧之后首次出现的静默帧;
检测所述首次出现的静默帧之后的预设帧数内是否存在发音帧;
若不存在发音帧,则将所述首次出现的静默帧的前一帧确定为所述最后分类为发音帧的唇部图像;
若存在发音帧,则从所述发音帧开始返回执行所述检测发音帧之后首次出现的静默帧的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011599830.2/1.html,转载请声明来源钻瓜专利网。