[发明专利]一种基于二值化深度神经网络的手写数字图像识别分类方法有效

申请号：	201910288642.9	申请日：	2019-04-11
公开（公告）号：	CN110070119B	公开（公告）日：	2021-11-26
发明（设计）人：	杨新武;王聿铭;孙芃;李彤	申请（专利权）人：	北京工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于二值化深度神经网络手写数字图像识别分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于二值化深度神经网络的手写数字图像识别分类方法，基于BinaryConnect二值化深度神经网络，并通过公式推导得出最优权重缩放因子α，将该因子α在前向传播过程中与权重W相乘，以达到增强网络表达能力、提高训练精度的目的。与现有技术相比，本发明人提出的权重缩放因子和XNOR‑Net中提出的权重缩放因子均能够在MLP‑MNIST问题上使得二值化深度神经网络达到较高的精度，但是本专利的方法在四层二值化MLP和MNIST数据集上的实验效果要优于XNOR‑Net的方法。具体表现为：在验证集精度上，本方法高出XNOR‑Net方法0.05％，在测试集精度上，本方法高出XNOR‑Net方法0.01％。

技术领域

本发明属于深度学习技术领域，是一种基于改进的二值化深度神经网络的手写数字图像识别分类新方法。

背景技术

机器学习是人工智能界近三十年最为火热的研究领域，而其中的深度学习则是机器学习界近十年内发展最快、最有前途的研究应用领域。在经历了两次兴起与两次低谷之后，神经网络终于迎来了第三次兴起。在摩尔定律和大数据的强大支持下，神经网络从浅层学习迈入了深度学习时代。

时至今日，深度学习技术已经在语音、图像、自然语言处理，人机博弈，金融欺诈检测，生物特征识别等方面做出了最佳成绩，并成为了计算机视觉、模式识别、生物医药研发、智慧城市、智能安防、智慧医疗、智能驾驶等众多领域的核心技术。

以计算机视觉领域为例，自2012年的ImageNet大型视觉识别挑战赛开始，深度神经网络历经AlexNet、Overfeat、VGGNet、GoogLeNet(Inception)、ResNet等网络架构的逐步革新之后，最终超过人类视觉识别分类的平均水平。

当前时期，深度学习技术正在各个领域大放异彩，前途一片光明。

尽管深度学习技术在诸多领域成绩斐然，但是，它的成绩却极大依赖于带有海量参数、需要大量高精度计算的神经网络模型以及强大的大规模并行计算能力。以VGG-16的D型网络为例，其可学习参数量(未使用bias)超过1.38亿个，若以4字节的32-bit单精度浮点数类型存储，内存和存储占用将超过527.74MB，对一幅224×224像素的彩色图片进行一次推断，需要近309.25亿次浮点运算(其中，浮点乘法运算超过154.70亿次，浮点加法运算超过154.54亿次)。因此，深度学习技术发展至今，已经遇到了内存、计算开销过大的瓶颈。

由于深度学习面临内存与计算开销过大的挑战，这使得深度学习技术难以应用于移动端、小型化、嵌入式等设备中，因此对于深度学习模型进行压缩加速就成为了近几年深度学习研究的一个热门领域。

如果深度学习的压缩加速问题得到了有效解决，那么就意味着深度学习技术完全可以在移动设备、嵌入式平台、可穿戴设备、消费娱乐电子产品等低功耗、低性能、便携式、高性价比的应用领域得到普遍推广，而不是只能在GPU、FPGA等价格昂贵、高功耗、不便携移动的高性能专用平台上才能应用。

二值化是一种典型的深度学习压缩加速方法。二值化方法的基本原理是：对于深度神经网络模型的权重、激活(有时含有输入、输出)信号进行二值量化；量化方式可以是确定性的或随机性的；量化的两种值可以是±1，也可以是其它两种值，比如±α(α＞0，α是常数)。

二值化的好处在于两个方面：第一，二值信号可以使用1bit来表示，可以直接达到减少内存/缓存占用(即：压缩)的目的。例如：如果原信号是32bit的float类型的话，压缩为1bit的话，可以达到32倍压缩的效果。第二，±1权重与实值激活之间的运算，由于涉及到实数乘以±1，因此，浮点乘法可以被取消掉(仅使用浮点加/减法即可)，从而达到减少浮点运算量(即：加速)的目的。这是因为，浮点乘法运算既耗时、又耗能、又占用较大空间，且是深度神经网络的运算过程中数量和占比相当多的一种运算(占全部浮点运算量的一半以上)，所以减少浮点乘法运算量是压缩加速的关键点之一。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910288642.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于二值化深度神经网络的手写数字图像识别分类方法有效

专利文献下载