[发明专利]一种基于Kinect的手写方法有效
申请号: | 201310118074.0 | 申请日: | 2013-04-07 |
公开(公告)号: | CN103226388A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 金连文;叶植超;张鑫 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F3/01 | 分类号: | G06F3/01 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蔡茂略 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 kinect 手写 方法 | ||
技术领域
本发明涉及一种计算机图像处理及模式识别技术,特别涉及一种基于Kinect的手写方法,该方法是一种空中虚拟手写的识别和交互的方法。
背景技术
纵观人机交互的发展史,我们一直在为创造一种更为自然的、用户友好的交互系统而努力,但是在现存的手写系统中,受限于硬件和软件上的制约,依然没有完全达到一种人性化的交互要求:一方面,传统的手写输入系统都需要凭借一定的介质设备,比如键盘、鼠标、电子笔、触摸屏,这种手写的行为与硬件“捆绑”在一起,一定程度上制约着我们手写的自由和应用场合;另一方面,目前国内外在类似的虚拟手写领域的尝试和研究也有不少,但是他们某种层面而言都存在一定的局限性,比如说,对应用场景要有严格的控制,要求背景干净和稳定不变;又或者需要高昂的电子设备,如高精度TOF相机、数据手套等,这些制约着他们的应用方案成为一种实用性的系统;可见现有的手写技术使用的限制很多,使用不方便,实用性差。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于Kinect的手写方法,该方法具有人性化程度高、用户操作友好、可以空中虚拟手写的特点。
本发明的目的通过下述技术方案实现:一种基于Kinect的手写方法,包括如下步骤:
步骤1、捕捉视频信息;
步骤2、分析处理并分割视频信息,分割得到每一帧图像里面用户的手部;
步骤3、分割后的视频信息分为两个模块:手写轨迹定位和字符识别模块与手势识别和响应模块。
所述步骤3中:
所述手写轨迹定位和字符识别模块的工作过程包括如下步骤:
(A)在人手分割的结果上进行指尖定位,并且存储定位得到的指尖位置;
(B)将一次书写检测得到的所有指尖点位置拼接起来得到一个完整字符的连笔进行字符重构,并把重构后的字符输入到字符识别引擎,以得到识别结果输出;
所述手势识别和响应模块的工作过程包括如下步骤:
(a)在人手分割的结果上提取手部信息特征,所述手部信息特征作为手势识别的输入,如果提取的所述手部信息特征的变化与预先设定的手势的变化规则一致,则可被判定为所述手势正在进行书写,所述手势识别和响应模块检测用户的手势变化作为人机交互的指令并输入手写系统从而实现手写系统的基本功能,所述手写系统包括:用户登入、落笔、抬笔、选择、删除和注销;
(b)系统检测到手势,界面做出相应响应。
所述步骤1中,采用微软的Kinect传感器来采集视频信息,所述视频信息包括彩色图像和深度图像;并利用Kinect将用户从复杂背景中分离出来。
所述步骤2中,所述分析处理并分割视频信息采用了一种混合模型的算法,所述混合模型的算法对肤色模型、深度模型和背景模型分别进行建模;所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果被输入到神经网络的评价系统,神经网络输出肤色模型的置信系数、深度模型的置信系数和背景模型的置信系数,分割结果取决于肤色模型、深度模型和背景模型经由置信系数加权之后的综合,所述加权之后的综合指:所述肤色模型的分割结果、深度模型的分割结果和背景模型的分割结果分别乘以各自的置信系数得到三个二值图,然后把所述的三个二值图进行累加,最后把累加的结果经过一个阈值得到最终分割结果。
所述步骤2中,所使用的神经网络是一个三层感知器模型,分为输入层、隐藏层和输出层;所述肤色模型、深度模型和背景模型这三个模型分割结果的两两重叠率输入所述神经网络的输入层,重叠率越高意味着分割的结果越好,即吻合度越高;所述肤色模型的置信系数、深度模型的置信系数和背景模型的置信系数由神经网络的输出层输出,置信系数越大意味着相对应模型的可靠性越高(在最终分割结果里面占据更重要的成分);隐藏层具有20个神经元,神经网络的激活函数是sigmod函数。
所述步骤(A)中,所述指尖定位采用了双模式切换的指尖定位算法,所述双模式切换的指尖定位算法通过手部的物理模型来决定选用的模式,对不同形态角度的手部自适应地采用相应的指尖定位算法。
所述步骤(B)中,在字符重构之后,轨迹点集经由一个均值滤波做平滑,消除因为局部噪声造成的影响;对于一个完整的字符在空中手写系统中,其指尖定位算法采样为n个点,则整个字符可视作n维向量,用字母c表示,所述整个字符的表达式如下:
c=(P1,P2,P3,...,Pn),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310118074.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种组合式表面声波触摸屏
- 下一篇:终端装置及其节电处理方法