[发明专利]基于深度置信网络和多模式特征的手语识别方法在审

申请号：	201811525263.9	申请日：	2018-12-13
公开（公告）号：	CN109753882A	公开（公告）日：	2019-05-14
发明（设计）人：	胡勇	申请（专利权）人：	金陵科技学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/38;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京知识律师事务所 32207	代理人：	陈卓
地址：	211169 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于深度置信网络(Deep Belief Network,DBN)和多模式特征的手语识别方法，涉及图像处理技术和机器学习领域。该方法包括：输入手语图像或视频，对手语图像进行预处理，提取方向梯度直方图(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Patterns,LBP)和Zernike矩等特征作为特征参数，利用深度置信网络进行训练和识别。本发明能实时识别图像中的手语信息，具有较高的识别准确率。
搜索关键词：	置信手语识别多模式预处理图像机器学习领域图像处理技术梯度直方图二值模式实时识别手语图像手语信息特征参数提取方向网络准确率视频
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于深度置信网络和多模式特征的手语识别方法，其步骤如下：步骤1：建立手语图像样本库；该图像样本库包括通用样本库，还包括自行采集的手语样本；样本库中存储的图像均为bmp,png,jpg格式；步骤2：对图像进行预处理；对图像样本进行预处理，将每一幅图像转换为灰度图像，以便于后续处理；采用基于灰度直方图的快速分割算法，从手语图像中分离手语区域；将彩色RGB图像转换为灰度图像时，采用下式计算灰度值：Gray＝0.299*R+0.587*G+0.114*B分割手语区域时，采用基于灰度直方图的最大类间方差算法，具体实现如下：对于一幅大小为M×N、灰度级数为L的数字图像，图像的总平均灰度记为μ，类间方差记为g；设t为前景与背景的分割阈值，前景点数占图像比例为ω₀，平均灰度为μ₀；背景点数占图像比例为ω₁，平均灰度为μ₁；前景和背景图象的类间方差为：g＝ω₀*(μ₀‑μ)²+ω₁*(μ₁‑μ)²采用遍历的方法得到使类间方差g最大的阈值t，即为最优分割阈值；步骤3：对图像中的手语区域进行多模式特征提取；经过步骤2预处理之后，提取手语区域的特征参数，并对该特征参数进行串联处理；所提取的特征参数包括：方向梯度直方图特征，共81维；局部二值模式特征，共256维；Zernike矩特征，共15维；总计352维特征参数；各特征计算方式如下：方向梯度直方图：按照两个一维梯度算子[‑1 0 1]和[‑1 0 1]^T计算图像各像素点的梯度即包括大小和方向；然后将图像按像素划分为6*6的网格，统计每个网格中不同梯度的个数；将9个网格即3*3，组成一个区域，一个区域内所有网格的特征串联起来便得到该区域的HOG特征；所有区域的HOG特征串联起来就可以得到该图像的HOG特征局部二值模式：采用下式计算每个像素点的LBP值：其中：P表示周边像素点的个数，R表示半径，g_c表示中心像素点的灰度值，g_p表示周边像素点的灰度值，旋转和灰度不变的LBP值由下式得到：其中：统计变换后的图像直方图，即可得到局部二值模式特征；Zernike矩：对于灰度图像f(x,y)，采用下式计算图像的Zernike矩：其中：λ为归一化系数，x²+y²≤1；步骤4：基于深度置信网络的训练；深度置信网络，是神经网络的一种，由神经元构成，组成元件是受限玻尔兹曼机，RBM是一种神经感知器，由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接；具体过程为：首先计算隐层中每个神经元被激活的概率，并通过隐层反推显层；当隐层神经元数量小于显层时，得到最优的模型参数，使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合，然后继续训练下一层的RBM，直至最后一层；一个RBM的能量可以用下面函数表示：其中：v是输入向量，h是输出向量，任意两个相连的神经元之间有一个权值ω表示其连接强度，每个神经元自身有一个偏置系数b和c分别表示显层神经元和隐层神经元的权重；在一个RBM中，隐层神经元h_j和显层神经元v_i被激活的概率分别为：P(h_j|v)＝σ(b_j+∑_iW_i,jx_i)P(v_i|h)＝σ(c_i+∑_jW_i,jh_j)当特征向量赋给显层后，RBM根据上述公式计算出每个隐层神经元被激活的概率，取一个0～1的随机数μ作为阈值，大于该阈值的神经元则被激活，否则不被激活；采取Gibbs抽样抽取一个样本h₁，通过隐层反推显层，利用公式计算显层中每个神经元被激活的概率P(v₂|h)，通过v₂再次计算隐层中每个神经元被激活的概率，得到概率分布P(h₂|v₂)，然后更新权重ω,b,c：ω←ω+λ{P(h1|v₁)v₁‑P(h2|v₂)v₂}b←b+λ{v₁‑v₂}c←c+λ{h₁‑h₂}50‑100次，迭代之后，隐层不仅能较为精准地显示显层的特征，同时还能够还原显层；步骤5：基于深度置信网络的识别过程当识别待分类样本时，在DBN的最顶层增加softmax回归层，输出每一类目标的概率，作为分类识别的结果；softmax回归模型是logistic回归模型在多类问题上的扩展，通过下式计算输入样本x归类为类别j的概率：其中：θ标识训练得到的所有参数；计算出该输入样本x从属于个各类的k个概率，选取概率最大的类作为最终分类结果；我们利用对数最大似然估计可以得到损失函数：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于金陵科技学院，未经金陵科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811525263.9/，转载请声明来源钻瓜专利网。

上一篇：一种防止强光干扰饮料瓶回收机识别投递物的方法
下一篇：视频定位方法、装置、存储介质和电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度置信网络和多模式特征的手语识别方法在审

专利文献下载