[发明专利]基于无监督学习深度学习网络的中文检测方法及系统有效
| 申请号: | 201510819927.2 | 申请日: | 2015-11-23 |
| 公开(公告)号: | CN105469047B | 公开(公告)日: | 2019-02-22 |
| 发明(设计)人: | 周异;陈凯;周曲;任逍航 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 徐红银;郭国中 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 监督 学习 深度 网络 中文 检测 方法 系统 | ||
1.一种基于无监督学习深度学习网络的中文检测方法,其特征在于包括以下步骤:
第一步,训练深度卷积神经网络:
构建无监督学习算法:以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集:中文字数据集包括常用字以及常用字体;
使用所述无监督学习算法和所述中文字数据集训练深度卷积神经网络;
第二步,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
第三步,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定;
所述第一步,具体过程如下:
(1)根据卷积运算和离散编码算法构建目标函数,优化目标为:特征h,字典D和网络参数p;
(2)固定字典D,使用FISTA法得到最优特征h‘;
(3)固定最优特征h‘,单次使用随机梯度下降法训练字典D;
(4)固定最优特征h‘,多次使用随机梯度下降法训练网络参数p,直至训练误差小于预设值θ;
(5)使用最新网络参数p重新计算特征h;
(6)重复上述(2)-(5)步骤直至达到学习目标;
第三步中,利用第二步得到的文字区域,执行基于区域相关性的文本行聚合算法,具体相关性特征和聚合规则如下:
(1)两个文字区域的高度比值在0.5和2之间;
(2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2;
(3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍;
(4)单个文本行至少有三个或以上的文字区域;
相关性为:两个文字区域的高度、两个文字区域外接矩形的中心点y坐标差、两个文字区域的外接矩形的中心点x坐标差;
聚合规则为:高度比值该在0.5和2之间、中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2、中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍。
2.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法,其特征在于第一步中,建立的中文字数据集特征如下:
所用文字为3500个常用字;
所用字体为15种有代表性的字体;
文字图像类型为黑底白字和白底黑字两种;
文字图像大小为32×32。
3.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法,其特征在于第二步中,所述多尺度滑动窗算法,其提取参数如下:
最大尺度为1/4图像大小,最小尺度为20像素;
重叠系数为0.5滑动提取;
提取出的图像块长宽比为1:1,并统一缩放为32×32的图像块。
4.一种用于实现权利要求1-3任一项所述方法的基于无监督学习深度学习网络的中文检测系统,其特征在于包括:
深度卷积神经网络模块,该模块包括构建无监督学习算法子模块和建立中文字数据集子模块,其中:
构建无监督学习算法子模块,以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集子模块,用于建立中文字数据集,所述中文字数据集包括常用字以及常用字体;
构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络;
文字区域提取模块,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
文字区域聚合模块,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510819927.2/1.html,转载请声明来源钻瓜专利网。





