[发明专利]一种基于二值化深度神经网络的手写数字图像识别分类方法有效
| 申请号: | 201910288642.9 | 申请日: | 2019-04-11 |
| 公开(公告)号: | CN110070119B | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 杨新武;王聿铭;孙芃;李彤 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 二值化 深度 神经网络 手写 数字图像 识别 分类 方法 | ||
1.一种基于二值化深度神经网络的手写数字图像识别分类方法,其特征在于:其特征在于:本方法的技术流程描述如下,
步骤1:获取手写数字训练集;输入手写数字数据集,输出数据集中的所有训练样本,包括实例x和标签y;
步骤2:预处理;
输入步骤1输出的实例x和标签y,经过预处理,输出预处理后的实例x’和标签y’;
步骤3:批量拼接;
输入步骤2输出的预处理后的实例x’和标签y’,经过mini_batch的拼接,输出批量拼接后的实例x_和标签y_;
步骤4:权重初始化;
输入未初始化的当前权重W,经过初始化赋值,输出初始化后的权重W;
步骤5:学习率初始化;
输入未初始化的当前学习率lr,经过初始化赋值,输出初始化后的学习率lr;
步骤6:获取批样本;
输入步骤3输出的批量拼接后的实例x_和标签y_,取出其中一个批次的样本作为输出,其中包括小批量实例batch_x和小批量标签batch_y;
步骤7:前向传播;
输入步骤6输出的小批量实例batch_x,作为深度神经网络的第零层,向前逐层计算各层的特征图,最终输出前向传播的分类结果y^;
深度神经网络模型是MLP或者CNN;对于其中的全连接层和卷积层,首先需要对权重W进行二值化,然后需要使用本方法方法推导出的最优二值权重缩放因子α*=Median(|W|)进行计算,使得二值权重得到L1范数意义下最优的缩放重构;
步骤8:损失函数;
输入步骤7输出的前向传播分类结果y^,输入步骤6输出的小批量标签batch_y,经过损失函数的计算,输出损失值C;
步骤9:反向传播;
输入步骤8输出的损失值C,作为网络的最后一层,反向逐层计算各层权重的梯度值g_W;
步骤10:学习率调整;
输入当前学习率lr,经过学习率调整之后,输出调整后的学习率lr;
步骤11:权重更新;
输入步骤9输出的各层权重的梯度值g_W,输入当前学习率lr,输入当前权重W,经过优化方法的处理,输出更新之后的权重W;
步骤12:重复步骤6至步骤11,直至达到训练轮数或者训练精度为止;权重二值化的问题描述如下:
设W∈Rn是实值权重,B∈{-1,+1}n是实值权重经过二值化之后的二值权重,α∈R+是二值权重的缩放因子,则权重二值化的过程需要求解如下最优化问题:
由于对于Lp范数(p0)有||·||p≥0,因此,求解与公式(1)等价的最优化问题:
当p=0和p=∞时,只能使用公式(1)进行求解,而不能使用公式(2);
2 p0时α*和B*的求解
2.1 p0时B*的求解
求解B*,意味着α视为常量;
2.1.1当n=1时
B=Bi;
公式(2)变成:
其中,i的取值范围是i=1;
由于Lp范数中的p≥0,且有|·|p≥0,因此,可以求解与公式(3)等价的最优化问题:
由于Bi∈{-1,+1},所以,把Bi=+1和Bi=-1分别代入公式(4),可得:
由于α∈R+,因此经过比较即可得出:
2.1.2当n≥2时
由于Bi(i=1,2,…,n)之间是相互独立的,因此有:
B*=sing(W) (7)
2.2 p0时α*的求解
求解α*,意味着B视为常量;
公式(7)代入公式(2)变成:
对公式(8)中的|Wi-αsign(Wi)|进行分类讨论并总结概括可得:
公式(9)代入公式(8)变成:
令
|α-|Wi||p=fp,i(α) (11)
令
则有:
下面单独探讨fp(α)的导数;
注意到:
所以有:
总结形式上的规律,于是有:
其中,k的取值范围是k=1,2,…; (17)
注意到,当p取非负整数时,有:
所以,公式(17)变成:
注意到:
|α-|Wi||·sign(α-|Wi|)=α-|Wi| (20)
还注意到:
[sign(α-|Wi|)]2=1 (21)
于是,特别地,当p取非负整数时,有:
其中,(p-k)≥0;
2.2.1当p=2时
当p=2时,[fp(α)]'=0当且仅当:
即:
解得:
其中,ArithmeticMean(·)返回的是算数平均值;
需要指出的是,公式(25)的结论与BWN的结论一致;也就是说,公式(25)并不是本方法的创新,但确实是本方法拓展BWN结论的出发点,或者说受到BWN启发之处;
2.2.2当p=1时
当p=1时,[fp(α)]'=0当且仅当:
解得:
α*=Median(|W|) (27)
其中,Median(·)为取中位数函数;当n为偶数时,α*也可以取W中的中间两个数所在闭区间内的所有值。
2.根据权利要求1所述的一种基于二值化深度神经网络的手写数字图像识别分类方法,其特征在于:其特征在于:
本方法基于BinaryConnect二值化深度神经网络,并通过公式推导得出最优权重缩放因子α,将该因子α在前向传播过程中与权重W相乘;
α能够扩大二值化深度学习模型的网络表达能力,因为当α=1时,BWN和XNOR-Net就退化为了BinaryConnect和BinaryNet方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910288642.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:密闭的滚动轴承
- 下一篇:参数图形化处理的装置及方法





