[发明专利]一种唇语识别方法、服务设备及存储介质在审

申请号：	202011599830.2	申请日：	2020-12-30
公开（公告）号：	CN112633208A	公开（公告）日：	2021-04-09
发明（设计）人：	李绪送;成刚;杨善松	申请（专利权）人：	海信视像科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	王英
地址：	266555 山东省青***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种识别方法服务设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种唇语识别方法、服务设备及存储介质，服务设备首先对目标对象进行视频采集，然后对需要提取唇部信息的每帧目标图像分别执行：从目标图像中提取出目标对象的唇部图像，对唇部图像进行分类识别，将唇部图像划分为发音帧或静默帧，若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律，则基于该变化规律从连续多帧唇部图像中定位唇语的起止位置，在获取起始位置之间的唇部图像序列之后，对唇部图像序列进行初步粗分类，筛选掉虽有耦合性但不支持的唇语，对筛选后的唇部图像序列进行唇语识别，得到唇语识别结果。从而可以在除语音交互外，增加基于唇语识别结果的多模态的信号提高人机交互的适用性和稳定性。

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种唇语识别方法、服务设备及存储介质。

背景技术

目前智能交互设备被看作万物联网的交互入口，因此语音交互获得了迅速发展，诸多语音交互系统出现在大众生活中。然而，单模态的语音交互系统抗干扰能力不强，在有背景噪音的场景下性能会明显下降，在距离较大的远场场景中会遇到唤醒困难的问题。此外，声音监听通道被占用时，单模态语音交互系统会彻底失效。

为了解决以上系统缺陷，相关技术中一方面可以依靠语音降噪和麦克风阵列等技术，来最大程度上消除背景噪音和远场环境对交互过程的影响，另一方面则可以借助多模态交互技术，赋予交互设备多模态的信号来扩充处理通路，借此解决单一模态语音交互在特定场景下遇到的问题，增强交互系统的适用性和稳定性。

但是，在相关技术中，如何采用多模态的信号来提高人机交互的适用性和稳定性的问题有待解决。

发明内容

本申请实施例提供一种唇语识别方法、服务设备及存储介质，采用多模态的信号提高人机交互的适用性和稳定性。

第一方面，本申请一实施例提供了一种服务设备，包括：存储器和控制器；

所述存储器，用于存储计算机程序；

所述控制器与所述存储器连接，被配置为基于所述计算机程序执行：

对目标对象进行视频采集；