[发明专利]一种基于卷积神经网络的字符识别方法有效
| 申请号: | 201810332531.9 | 申请日: | 2018-04-13 |
| 公开(公告)号: | CN108596066B | 公开(公告)日: | 2020-05-26 |
| 发明(设计)人: | 张海剑;成帅;杨天韵 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 卷积 神经网络 字符 识别 方法 | ||
1.一种基于卷积神经网络的字符识别方法,其特征在于,包括如下步骤:
步骤1,对工程图纸扫描文档二值化,将工程图纸扫描文档中的图文与背景分离;
步骤2,针对倾斜的扫描文档,找到二值图像的倾斜角,采用双线性插值对二值图像进行旋转矫正;
步骤3,采用数学形态学处理并提取出步骤2矫正图像中的表格框线,将该矫正图像分割为图面区域、材料表区域和标题栏区域;
步骤3的具体实现包括如下子步骤,
步骤3.1,采用垂直方向的线性结构元[1 1 1]T和水平方向的线性结构元[1 1 1]对步骤2中的矫正图像先腐蚀再膨胀,再对结果做骨架化处理,将所有水平和垂直的线段细化为线段宽度为一个像素的单线,得到垂直框线图像I1和水平框线图像I2;
步骤3.2,对垂直框线图像I1和水平框线图像I2作与运算,得到表格框线的交点;
步骤3.3,对于每一个交点,检测出同一水平位置附近的其他交点及同一垂直位置附近的其他交点,根据距离依次进行匹配,找到每个正确表格框;如果存在一个交点A,和同一水平位置附近的交点B以及同一垂直位置附近的交点C构成一个矩形,且该矩形四条边所在的位置均存在表格框线,即检测出来矩形的四条边和表格框线重合,则整体表格中存在一个以交点A为左上角点,AB距离为长,AC距离为宽的表格框;依次对表格框线的所有交点进行上述处理,提取到每一个正确的表格框;
步骤3.4,将提取的表格框中面积最大的表格框划分为图面区域,面积次之的表格框划分为材料表区域,整个图像下方包括多个表格框的区域组成标题栏区域;
步骤4,搜索步骤2中矫正图像所有的连通区域,再依据矫正图像中所标记连通区域的形状和近邻位置特征筛选、合并连通区域来定位单个字符;
步骤5,将单个字符组合成字符串,计算字符串中各字符外接矩形的中心点的拟合直线,依据拟合直线的斜率判断字符串的走向,将斜向字符串旋转相应的角度至水平方向;
步骤6,查找步骤2矫正图像中的圆圈,并提取工程图纸中的焊道号;
步骤7,制作工程图纸字符数据集,在MatConvNet框架下构建卷积神经网络,利用该卷积神经网络训练得到的模型识别工程图纸中的字符;
步骤8,通过对图面区域、材料表区域和标题栏区域设置不同的编码规则,自动纠正各区域中简单的字符识别错误;
步骤9,输出并存储所有识别获得的图纸数据。
2.如权利要求1所述的一种基于卷积神经网络的字符识别方法,其特征在于:步骤1中采用基于Ostu法的最佳阈值处理对工程图纸扫描文档二值化,具体实现方式如下,
用{0,1,2,...,L-1}表示一幅扫描图像中的L个不同的灰度级,计算输入图像的归一化直方图,用Pi,i=0,1,2,…,L-1表示该直方图,假设选择一个阈值k,在k处将图像分为C0={0,1,...,k}和C1={k+1,k+2,...,L-1}两组,则像素被分到C0组和C1组中的概率分别为:
C0和C1的灰度平均值分别为:
整幅图像的灰度平均值为:
μ=μ0ω0+μ1ω1
计算出C0和C1两组间的方差:
σ2=ω0(μ0-μ)2+ω1(μ1-μ)2=ω0ω1(μ1-μ0)2
在L个不同的灰度级中寻找最佳阈值k*,将使σ2最大的k*作为最佳阈值,利用该最佳阈值将扫描文档图像转换为二值图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810332531.9/1.html,转载请声明来源钻瓜专利网。





