[发明专利]基于无监督学习深度学习网络的中文检测方法及系统有效

申请号：	201510819927.2	申请日：	2015-11-23
公开（公告）号：	CN105469047B	公开（公告）日：	2019-02-22
发明（设计）人：	周异;陈凯;周曲;任逍航	申请（专利权）人：	上海交通大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/62
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	徐红银;郭国中
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督学习深度网络中文检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于无监督学习深度学习网络的中文检测方法，其特征在于包括以下步骤：

第一步，训练深度卷积神经网络：

构建无监督学习算法：以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；

建立中文字数据集：中文字数据集包括常用字以及常用字体；

使用所述无监督学习算法和所述中文字数据集训练深度卷积神经网络；

第二步，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；

第三步，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定；

所述第一步，具体过程如下：

(1)根据卷积运算和离散编码算法构建目标函数，优化目标为：特征h，字典D和网络参数p；

(2)固定字典D，使用FISTA法得到最优特征h‘；

(3)固定最优特征h‘，单次使用随机梯度下降法训练字典D；

(4)固定最优特征h‘，多次使用随机梯度下降法训练网络参数p，直至训练误差小于预设值θ；

(5)使用最新网络参数p重新计算特征h；

(6)重复上述(2)-(5)步骤直至达到学习目标；

第三步中，利用第二步得到的文字区域，执行基于区域相关性的文本行聚合算法，具体相关性特征和聚合规则如下：

(1)两个文字区域的高度比值在0.5和2之间；

(2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2；

(3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍；

(4)单个文本行至少有三个或以上的文字区域；

相关性为：两个文字区域的高度、两个文字区域外接矩形的中心点y坐标差、两个文字区域的外接矩形的中心点x坐标差；

聚合规则为：高度比值该在0.5和2之间、中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2、中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍。

2.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，其特征在于第一步中，建立的中文字数据集特征如下：

所用文字为3500个常用字；

所用字体为15种有代表性的字体；

文字图像类型为黑底白字和白底黑字两种；

文字图像大小为32×32。

3.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，其特征在于第二步中，所述多尺度滑动窗算法，其提取参数如下：

最大尺度为1/4图像大小，最小尺度为20像素；

重叠系数为0.5滑动提取；

提取出的图像块长宽比为1：1，并统一缩放为32×32的图像块。

4.一种用于实现权利要求1-3任一项所述方法的基于无监督学习深度学习网络的中文检测系统，其特征在于包括：

深度卷积神经网络模块，该模块包括构建无监督学习算法子模块和建立中文字数据集子模块，其中：

构建无监督学习算法子模块，以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；

建立中文字数据集子模块，用于建立中文字数据集，所述中文字数据集包括常用字以及常用字体；

构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络；

文字区域提取模块，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；

文字区域聚合模块，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510819927.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于车型识别的特征选取方法
下一篇：基于双目视频分析的驾驶员不良驾驶行为检测系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于无监督学习深度学习网络的中文检测方法及系统有效

专利文献下载