[发明专利]一种唇语识别方法、服务设备及存储介质在审
申请号: | 202011599830.2 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112633208A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 李绪送;成刚;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王英 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 方法 服务 设备 存储 介质 | ||
本申请公开了一种唇语识别方法、服务设备及存储介质,服务设备首先对目标对象进行视频采集,然后对需要提取唇部信息的每帧目标图像分别执行:从目标图像中提取出目标对象的唇部图像,对唇部图像进行分类识别,将唇部图像划分为发音帧或静默帧,若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于该变化规律从连续多帧唇部图像中定位唇语的起止位置,在获取起始位置之间的唇部图像序列之后,对唇部图像序列进行初步粗分类,筛选掉虽有耦合性但不支持的唇语,对筛选后的唇部图像序列进行唇语识别,得到唇语识别结果。从而可以在除语音交互外,增加基于唇语识别结果的多模态的信号提高人机交互的适用性和稳定性。
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种唇语识别方法、服务设备及存储介质。
背景技术
目前智能交互设备被看作万物联网的交互入口,因此语音交互获得了迅速发展,诸多语音交互系统出现在大众生活中。然而,单模态的语音交互系统抗干扰能力不强,在有背景噪音的场景下性能会明显下降,在距离较大的远场场景中会遇到唤醒困难的问题。此外,声音监听通道被占用时,单模态语音交互系统会彻底失效。
为了解决以上系统缺陷,相关技术中一方面可以依靠语音降噪和麦克风阵列等技术,来最大程度上消除背景噪音和远场环境对交互过程的影响,另一方面则可以借助多模态交互技术,赋予交互设备多模态的信号来扩充处理通路,借此解决单一模态语音交互在特定场景下遇到的问题,增强交互系统的适用性和稳定性。
但是,在相关技术中,如何采用多模态的信号来提高人机交互的适用性和稳定性的问题有待解决。
发明内容
本申请实施例提供一种唇语识别方法、服务设备及存储介质,采用多模态的信号提高人机交互的适用性和稳定性。
第一方面,本申请一实施例提供了一种服务设备,包括:存储器和控制器;
所述存储器,用于存储计算机程序;
所述控制器与所述存储器连接,被配置为基于所述计算机程序执行:
对目标对象进行视频采集;
对需要提取唇部信息的每帧目标图像分别执行:从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;
若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;
获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。
本申请一实施例中,所述控制器还被配置为:
基于预先训练好的唇部图像分类模型,将所述唇部图像划分为发音帧或静默帧;
其中,根据以下方法得到所述唇部图像分类模型:
获取唇部样本图像,所述唇部样本图像关联有对应的类别标签,所述类别标签为根据所述唇部样本图像对应的语音信号标注的;
将所述唇部样本图像输入待训练的唇部图像分类模型,得到所述待训练的唇部图像分类模型输出的所述唇部样本图像的预测类别标签;
根据预先设置的损失函数确定所述预测类别标签与所述类别标签之间的损失,训练所述待训练的唇部图像分类模型的参数,得到所述唇部图像分类模型。
本申请一实施例中,所述控制器还被配置为:
对所述唇部样本图像对应的所述语音信号进行声音活动检测,得到语音检测结果;所述语音信号为所述唇部样本图像和所述唇部样本图像之前的指定帧数内的语音片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011599830.2/2.html,转载请声明来源钻瓜专利网。