[发明专利]一种基于Kinect视觉的唇读研究的方法在审
| 申请号: | 201811357055.2 | 申请日: | 2018-11-15 |
| 公开(公告)号: | CN111191490A | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 喻梅;马权智;于健;于瑞国;王建荣;徐天一;赵满坤;高洁;岳帅 | 申请(专利权)人: | 天津大学青岛海洋技术研究院 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 266200 山东省青岛市鳌*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 kinect 视觉 研究 方法 | ||
一种基于Kinect视觉的唇读研究的方法,该方法将获取的图像及深度数据得到唇区(即感兴趣区域ROI)的3D坐标信息,分别将坐标及空间角度作为特征进行训练识别,探索基于三维信息的唇读研究;该方法相比于基于模型的方法,保存了更多的信息;相比于基于像素的方法,避免了背景对提取数据的影响,降低了信息维度和冗余度。
技术领域
本发明属于语音识别领域,具体涉及一种基于Kinect视觉的唇读研究的方法。
背景技术
近年来,随着计算机技术的迅猛发展,尤其是便携式计算机技术的普及,人机交互(HCI---Human Computer Interface)已经逐渐成为现代人们的一种重要生活方式。在人类交流的过程中,语音无疑是非常重要的信息媒介,通过语音可以传递一个人的喜怒哀乐。因此,人机交互的方式逐渐以语音的方式为主, 因而语音识别技术发展迅猛。语音搜索、语音输入法等语音识别系统已成为当今社会的一大潮流。
但是,即使最优秀的语音识别系统也难以适应现实生活中复杂多变的环境,尤其是高噪声的环境,此时系统的识别性能会大幅下降。与此同时,对于听力受损者或语言障碍者而言,语音识别系统的优势也难以体现。有心理学研究表明,人们在噪声环境下,会不自觉地使用唇动、表情、手势等视觉信息来提高语言的理解力。换言之,人类对于语言的感知是多模态的,即在交流过程中不仅依赖交换音频信息的方式,还依靠视觉信息辅助理解。因此唇读研究的发展不仅对于已有的语音识别系统是极大的辅助,同时对于听力受损者或语言障碍者也是一个福音。 因而,唇读研究也吸引了业界的注意力,并得到大力发展。唇读研究主要涉及以下几方面:唇区检测及定位、特征提取和训练识别。其中特征提取处于核心地位。目前的特征提取方法主要分为三类:
1)基于模型的方法,将嘴唇轮廓抽象为一个数学模型,以获得关于嘴唇的几何形状特征。缺点是特定的模型有可能丢掉一些重要的信息。
2)基于像素的方法,该方法将感兴趣区域(ROI)的像素信息直接或经过某种变换后作为特征向量,其缺点是特征向量是高维度和高冗余度的。
3)将前两种方法结合提取特征。比如AAM(主动外观模型)算法等。在提取特征之后,通过HMM模型对特征进行训练识别。
发明内容
针对现有技术存在的问题,本发明提出一种基于Kinect视觉的唇读研究的方法,该方法将获取的图像及深度数据得到唇区(即感兴趣区域ROI)的3D坐标信息,分别将坐标及空间角度作为特征进行训练识别,探索基于三维信息的唇读研究;该方法相比于基于模型的方法,保存了更多的信息;相比于基于像素的方法,避免了背景对提取数据的影响,降低了信息维度和冗余度。
一种基于Kinect视觉的唇读研究的方法,具体有以下步骤组成:
步骤一:通过Kinect采集所需脸部三维数据,并对数据进行预处理;
步骤二:定位唇区,提取唇部18个特征点,进行编号建模;
步骤三:提取特征,分别是特征点间的角度特征和特征点的坐标特征,并进行归一化处理;
步骤四:采用隐马尔可夫模型(HMM)以及K-近邻算法(KNN)对特征进行训练识别。
步骤一对采集的数据进行了预处理,具体步骤如下:
通过采集获得语料库,将获取到的数据加标签及时间戳进行序列化,全部存到一个二进制文件中。将原始数据进行预处理,其一,要把整段音频进行切割,分成每个词一段音频,同时对应的彩色图像及深度数据也要同步的保存到同一位置;其二,我们需要将不合格的数据剔除,并进行重新补录。
步骤二在步骤一的基础上进行唇区定位,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学青岛海洋技术研究院,未经天津大学青岛海洋技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811357055.2/2.html,转载请声明来源钻瓜专利网。





