[发明专利]一种基于Kinect视觉的唇读研究的方法在审

专利信息
申请号: 201811357055.2 申请日: 2018-11-15
公开(公告)号: CN111191490A 公开(公告)日: 2020-05-22
发明(设计)人: 喻梅;马权智;于健;于瑞国;王建荣;徐天一;赵满坤;高洁;岳帅 申请(专利权)人: 天津大学青岛海洋技术研究院
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32
代理公司: 暂无信息 代理人: 暂无信息
地址: 266200 山东省青岛市鳌*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 kinect 视觉 研究 方法
【说明书】:

一种基于Kinect视觉的唇读研究的方法,该方法将获取的图像及深度数据得到唇区(即感兴趣区域ROI)的3D坐标信息,分别将坐标及空间角度作为特征进行训练识别,探索基于三维信息的唇读研究;该方法相比于基于模型的方法,保存了更多的信息;相比于基于像素的方法,避免了背景对提取数据的影响,降低了信息维度和冗余度。

技术领域

发明属于语音识别领域,具体涉及一种基于Kinect视觉的唇读研究的方法。

背景技术

近年来,随着计算机技术的迅猛发展,尤其是便携式计算机技术的普及,人机交互(HCI---Human Computer Interface)已经逐渐成为现代人们的一种重要生活方式。在人类交流的过程中,语音无疑是非常重要的信息媒介,通过语音可以传递一个人的喜怒哀乐。因此,人机交互的方式逐渐以语音的方式为主, 因而语音识别技术发展迅猛。语音搜索、语音输入法等语音识别系统已成为当今社会的一大潮流。

但是,即使最优秀的语音识别系统也难以适应现实生活中复杂多变的环境,尤其是高噪声的环境,此时系统的识别性能会大幅下降。与此同时,对于听力受损者或语言障碍者而言,语音识别系统的优势也难以体现。有心理学研究表明,人们在噪声环境下,会不自觉地使用唇动、表情、手势等视觉信息来提高语言的理解力。换言之,人类对于语言的感知是多模态的,即在交流过程中不仅依赖交换音频信息的方式,还依靠视觉信息辅助理解。因此唇读研究的发展不仅对于已有的语音识别系统是极大的辅助,同时对于听力受损者或语言障碍者也是一个福音。 因而,唇读研究也吸引了业界的注意力,并得到大力发展。唇读研究主要涉及以下几方面:唇区检测及定位、特征提取和训练识别。其中特征提取处于核心地位。目前的特征提取方法主要分为三类:

1)基于模型的方法,将嘴唇轮廓抽象为一个数学模型,以获得关于嘴唇的几何形状特征。缺点是特定的模型有可能丢掉一些重要的信息。

2)基于像素的方法,该方法将感兴趣区域(ROI)的像素信息直接或经过某种变换后作为特征向量,其缺点是特征向量是高维度和高冗余度的。

3)将前两种方法结合提取特征。比如AAM(主动外观模型)算法等。在提取特征之后,通过HMM模型对特征进行训练识别。

发明内容

针对现有技术存在的问题,本发明提出一种基于Kinect视觉的唇读研究的方法,该方法将获取的图像及深度数据得到唇区(即感兴趣区域ROI)的3D坐标信息,分别将坐标及空间角度作为特征进行训练识别,探索基于三维信息的唇读研究;该方法相比于基于模型的方法,保存了更多的信息;相比于基于像素的方法,避免了背景对提取数据的影响,降低了信息维度和冗余度。

一种基于Kinect视觉的唇读研究的方法,具体有以下步骤组成:

步骤一:通过Kinect采集所需脸部三维数据,并对数据进行预处理;

步骤二:定位唇区,提取唇部18个特征点,进行编号建模;

步骤三:提取特征,分别是特征点间的角度特征和特征点的坐标特征,并进行归一化处理;

步骤四:采用隐马尔可夫模型(HMM)以及K-近邻算法(KNN)对特征进行训练识别。

步骤一对采集的数据进行了预处理,具体步骤如下:

通过采集获得语料库,将获取到的数据加标签及时间戳进行序列化,全部存到一个二进制文件中。将原始数据进行预处理,其一,要把整段音频进行切割,分成每个词一段音频,同时对应的彩色图像及深度数据也要同步的保存到同一位置;其二,我们需要将不合格的数据剔除,并进行重新补录。

步骤二在步骤一的基础上进行唇区定位,具体步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学青岛海洋技术研究院,未经天津大学青岛海洋技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811357055.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top