[发明专利]基于Harris角点和笔画宽度的文字区域检测方法有效

专利信息
申请号: 201510407779.3 申请日: 2015-07-13
公开(公告)号: CN105205488B 公开(公告)日: 2018-07-24
发明(设计)人: 蒋晓悦;连洁;冯晓毅;李会方;吴俊;谢红梅;何贵青;夏召强 申请(专利权)人: 西北工业大学
主分类号: G06K9/46 分类号: G06K9/46
代理公司: 西北工业大学专利中心 61204 代理人: 顾潮琪
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 harris 笔画 宽度 文字 区域 检测 方法
【权利要求书】:

1.一种基于Harris角点和笔画宽度的文字区域检测方法,其特征在于包括下述步骤:

步骤1:边缘增强的Harris角点检测

假设原灰度图像为I,

(1.1)用canny算子对原灰度图像I进行边缘检测得到边缘图像Iedge,之后按下式计算得到图像I':

I'=I+nedge*Iedge (1)

其中nedge为边缘图像Iedge的放大倍数,取值范围为80~120,然后代入下式:

I”(i,j)=I'(i,j)/I'MAX*256 (2)

其中I'(i,j)为图像I'中点(i,j)处的像素值,I'MAX为图像I'中所有像素点的最大值,式(2)可确保更新后的图像I”中各像素点的取值范围在[0,255]之间;

(1.2)利用Harris角点检测算法得到图像的角点响应:

首先通过卷积运算求取图像每一点的水平和垂直方向导数IX、IY

然后采用高斯窗函数滤波器Wu,v对图像的方向导数进行滤波:

其中,u、v分别为滤波器模板的长和宽,δ为滤波器的平滑程度参数,其中,高斯滤波模版参数为u=7,v=7,δ=2;

按照公式(5)为图像中每一个点计算局部自相关矩阵:

其中IX、IY分别为图像上一点的按照公式(3)、(4)计算出的水平和垂直方向导数,最后计算角点响应corness:

corness=det(M)-K*trace(M)2 (7)

其中,trace(M)为矩阵的迹,det(M)为矩阵M的行列式值,K为一个经验常数,取值范围为0.04~0.06,根据公式(7)计算出图像I”中各点的角点响应值后,对每一点(i,j)的角点响应值进行公式(8)和(9)的计算:

K1:{cornessi,j>0.1*cornessmax且cornessi,j为其八连通区域内的极大值} (9)

其中,pix(i,j)为像素点(i,j)处的像素值,cornessi,j为由公式(7)计算出的像素点(i,j)处的角点响应值,cornessmax为图像I”中各像素点根据公式(7)计算出的角点响应的最大值,K1为局部极值点的筛选条件;当点(i,j)的角点响应值cornessi,j大于图像I”中各像素点的角点响应值的最大值cornessmax的0.1倍,且点(i,j)的角点响应值还是其所在八领域的角点响应值的极大值时,将点(i,j)的像素值置为1,否则为0,则最终像素值为1的像素点成为图像的角点;

为确保文字区域拥有较高的角点密度,进行角点聚类,将与角点的欧式距离小于3的点同样标记为角点;

(1.3)得到图像的角点响应后,我们按照公式(10)~(13)对图像进行行扫描以确定文字可能出现的水平候选区域,然后再按照公式(14)~(17)对候选区域进行列扫描以确定文字区域的准确位置;在行扫描中,兼顾计算效率,利用宽度与图像宽度一致,高度为图像I”中像素高度4倍的的矩形窗Ri,其中i为矩形窗的编号,i依次取1至X之间的全部整数且包含两个端点,其中X为I”的宽度除以4后的值取下整,则第i个矩形窗Ri的起始行为图像I”的第(4*(i-1)+1)行,遍历i的取值就做到了自上而下逐块检测图像I”,统计矩形窗Ri中角点响应为“1”的点的个数cnti,并与行检测阈值cnt*0.1比较,其中cnt为图像I”的角点总数,当相邻矩形窗内的角点数目满足:

K2:{cnti-1<cnt*0.1,cnti>cnt*0.1} (11)

其中K2为矩形窗包含文字区域上边界的判定条件,由于采用的是高度为图像I”中像素高度4倍的矩形窗进行图像扫描,因此,如果第i个矩形窗包含了文字区域的上边界,该矩形窗的起始行在图像I”中的行坐标为(4*(i-1)+1),将第i个矩形窗的起始行定义为文字区域的上边界,得到文字区域的上边界坐标(4*(i-1)+1);

(1.4)对图像I”中与Ri大小完全相同的矩形窗Rj采用和步骤(1.3)中相同的扫描方式进行扫描,即将j遍历区间[1,X]的全部整数,对每一个取值不同的j进行公式(12),(13)的计算:

K3:{cntj>cnt*0.1,cntj+1<cnt*0.1} (13)

其中,公式K3为矩形窗包含文字区域下边界的判定条件,由于采用的图像扫描矩形窗高度为4,因此,如果第j个矩形窗包含了文字区域的下边界,那么该矩形窗的下边界在图像I”中的行坐标为(4*j),将第j个矩形窗的下边界定义为文字区域的下边界,得到文字区域的下边界坐标(4*j);

(1.5)确定了图像I”中文字所在的候选行区域之后,在候选行区域中通过列扫描进一步确定文字的列位置,具体步骤如下:

用宽度为图像I”中像素宽度的25倍,高度与由步骤(1.3)计算出的上边界和(1.4)计算出的下边界划定的文字候选行高度一致的矩形窗Ri'在文字候选行中逐块扫描,其中i’依次取1至Y之间的全部整数且包含两个端点,其中Y为图像I”的宽度除以25后取下整,则第i’个矩形窗Ri'的左边界在图像I”中的列坐标为(25*(i'-1)+1),遍历i’的取值范围并且对每一个取值不同的i’进行公式(14),(15)的计算:

K4:{cnti'-1<cnt*0.01,cnti'>cnt*0.01} (15)

公式K4为判断矩形窗Ri'是否包含文字区域左边界的条件,如果第i’个矩形窗包含了文字区域的左边界,则该矩形窗的左边界在图像I”中的列坐标为(25*(i'-1)+1),将第i’个矩形窗的左边界定义为文字区域的左边界,得到文字区域的左边界(25*(i'-1)+1);

(1.6)对图像I”中与Ri'大小完全相同的矩形窗Rj'采用和步骤(1.5)中相同的扫描方式进行扫描,即将j’遍历取值区间[1,Y]的全部整数,对每一个取值不同的j’进行公式(16),(17)的计算:

K5:{cntj'>cnt*0.01,cntj'+1<cnt*0.01} (17)

公式K5为判定矩形窗是否包含文字区域右边界的条件,如果第j’个矩形窗包含了文字区域的右边界,由于采用的图像列扫描矩形窗宽度为图像I”中像素宽度的25倍,则该矩形窗的右边界在图像I”中的列坐标为(25*j'),将第j’个矩形窗的右边界定义为文字区域的右边界,得到文字区域的右边界(25*j');

步骤2:依据笔画宽度筛选候选区域部分

(2.1)用同步骤1中角点检测算法得到候选文字区域;

(2.2)对满足角点响应的区域依次进行笔画宽度检测:

首先将图像I”中各像素点的笔画宽度值初始化为正无穷,之后逐一处理由步骤1得到的候选文字区域,恢复区域中文字的真实笔画宽度,即对任一角点响应区域H利用canny算子进行边缘检测,得到边缘点p的梯度方向dp;如该边缘点p同时也是文字笔画的边缘,那么其梯度方向dp与该处文字笔画方向的垂直方向的绝对误差小于π/6,然后沿着p+n*dp,(n=1,2,3Kn>0,初值为1)的方向寻找另一个边缘点q,计算q点的梯度方向dq,如果dq与dp的方向满足条件dq=-dp±(π/6),则将[p,q]连线上的每一个像素点的笔画宽度值置设为如果没有符合dq=-dp±(π/6)条件的q点,那么放弃该搜索方,并将n取值加1,更新搜索方向计算公式p+n*dp,沿着新方向再次寻找符合dq=-dp±(π/6)条件的q点,逐一增加n的取值,直到边缘点q找到或者搜索区域超出H的范围,如果由于方向计算公式p+n*dp的更新,使得区域H内同一个像素点拥有多个不同的笔画宽度值,则选择不同笔画宽度值中的最小值作为该像素点的笔画宽度值;

当检测完区域H内所有的边缘点后,将计算结果中取值非无穷的点进行连通区域合并,得到多个连通区域wi,定义连通区域集合为W,有wi∈W,统计各连通区域wi内各像素点的笔画宽度值swtipix,用区域wi内各像素点的笔画宽度的众数代表该区域的笔画宽度值swtwi,即

swtwi=mode(swtipix,ipix∈wi) (18)

其中,ipix用于标定联通区域wi中所包含的各个像素点,当出现某一连通区域内各像素点的笔画宽度值均不同时,说明该连通区域为虚警,标注该区域的笔画宽度值为无穷;

求得角点响应区域H内各连通区域wi的笔画宽度值后,如果区域H是文字区域,那么它包含的各连通区域应该属于同一字符或者同一文字行,即各连通区域的笔画宽度swtwi的方差,即var(swtwi),wi∈W,应小于阈值Tswt,其中Tswt的取值范围为50~80,仅当计算结果低于上限Tswt时保留该区域;

步骤3:基于文字颜色的区域膨胀部分

(3.1)用同步骤1,步骤2中文字检测算法得到候选文字区域;

(3.2)如角点响应发生在文字的内部,即检测到的区域会包含截断的文字,为了得到完整的文字,利用同一文字区域颜色一致的特性,在筛选后的文字区域内,逐区域进行膨胀运算,具体步骤如下:

由于文字边缘的颜色与背景颜色接近,因此选择提取靠近文字中心的像素点的颜色,即提取区域内属于角点响应但不属于canny边缘响应点的RGB值,对其使用K-means聚类算法聚为一类,聚类中心即该处文字的颜色,即RH,GH,BH;之后检测该区域上边界的相邻行,不属于文字区域的一侧,对该行内各像素点依次进行下列计算:

其中pi表示该行第i个像素点的取值,分别表示该行第i个像素点对应原图像中相同位置点的红、绿、蓝三通道的分量值,H表示当前处理的文字区域,Tcolor为判断颜色是否相似的阈值,Tcolor的取值范围为20~25,当该行满足公式(21)时,将其合并入文字区域中:

pixnumRGB/pixnumline≥0.1 (21)

其中,pixnumline表示该行的总像素个数,pixnumRGB表示该行中满足公式(20)的像素点个数,合并之后,对该文字区域的其余三个边界做相同的运算处理,即可得到图像中的文字区域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510407779.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top