[发明专利]基于能量最小化框架的文档图像倾斜度检测与纠正方法有效
申请号: | 201310321375.3 | 申请日: | 2013-07-22 |
公开(公告)号: | CN103400130A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 邬向前;卜巍;唐有宝 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于能量最小化框架的文档图像倾斜度检测和纠正方法,该方法的研究对象为机打文档图像,文档图像中的内容可以是文字、表格、图片等。本发明首先需要使用扫描仪将文档扫描成电子文档图像,然后估算前景像素状态信息,然后利用前景像素状态信息构建能量函数,然后利用图像处理技术和直线拟合技术计算初始的倾斜度,最后进行能量最小化过程得到最终的倾斜度并将文档图像进行纠正。本发明能适用于多种不同类型的文档,使得倾斜度检测更加精确,在保证精度的同时也提高了倾斜度检测的速度。 | ||
搜索关键词: | 基于 能量 最小化 框架 文档 图像 倾斜度 检测 纠正 方法 | ||
【主权项】:
1.基于能量最小化框架的文档图像倾斜度检测与纠正方法,该方法包括三个过程:(1)计算前景像素状态信息在计算前景像素状态信息之前,首先对扫描得到的文档图像进行二值化,用黑色表示前景,白色表示背景像素,给定一个前二值文档图像I之后,前景像素的状态计算过程如下:一个边界框定义为一个文档图像的边界,用P记作整个前景像素的集合,(W,H)记作文档图像I的大小,那么对每一个前景像素p∈P,它的状态信息为sp=(xp,yp,wp,hp),其中xp,yp,wp,hp分别为p到图像最左、最上、最右和最下边的距离;(2)利用直线拟合技术估算初始倾斜度接下来利用文档图像中最外围的前景像素的状态信息来估算初始倾斜度,一个边界框有四个边:上、下、左和右,对每一边都能得到其最外围的前景像素状态信息子集,用以下方式得到上边最外围前景像素状态信息子集,记为![]()
TS = ∪ i = 1 W s i - - - ( 1 ) ]]> yi∈si∩yi=min{yp|yp∈sp∩xp∈sp∩xp=i}将TS中每个元素的xp做为x坐标,yp作为y坐标画图,图中下面的点拟合成一条直线,边界框剩下的三边都经过该处理,将使用直线拟合的技术来估算文档图像的初始倾斜度,在直线拟合之前先对TP进行采样,用如下方式将TP划分为N个互不重叠的部分STSi:TS = ∪ i = 1 N STS i ]]>![]()
STS i = { s p | x p ∈ s p ∩ ( i - 1 ) × W N + 1 ≤ x p ≤ i × W N } ]]> N=32,接下来用如下方式构建一个子集FTS,即计算每个部分STSi中yi最小的那个前景像素状态信息:FTS = ∪ i = 1 N ( s i ∩ s i ∈ STS i ) - - - ( 3 ) ]]> yi∈si∩yi=min{yp|yp∈sp∩sp∈STSi}进行采样操作完之后,需要通过以下方式进一步消除没用的状态信息得到有效的用来进行直线拟合的状态信息VTSVTS = { s p | s p ∈ FTS ∩ y p ∈ s p ∩ y p < H 3 } - - - ( 4 ) ]]> 然后采用穷举搜索的方式在VTS中做直线拟合直到找到两个状态信息使得有最多的其他状态信息到由这两个状态信息确定的直线之间的距离小于指定的阈值D;对边界框的四边都进行直线拟合之后得到四条直线,接下来就是找到拟合最好的那条直线,同时该直线对应的倾斜角就是文档图像的初始倾斜角;用{lt,lb,li,lr}记作拟合的四条直线,{LSt,LSb,LSi,LSr}记作靠近相应直线的状态信息,要是某条直线对应的状态信息的个数小于M,在下面的操作中将不再考虑该直线,对每条直线li,计算所有直线状态信息LSi和直线li之间的距离之和,然后用如下方式计算比值Ri:R i = SD i ( f ( LS i ) ) 2 - - - ( 5 ) ]]> 其中f(·)计算一个集合中元素的个数,{Rt,Rb,Ri,Rr}中的最小值对应的直线就是最佳拟合的直线,最终最佳拟合的直线对应的倾斜角就是文档图像的初始倾斜角,其中D=5,M=5;(3)使用能量最小化过程计算最终倾斜度得到初始倾斜角之后,然后用能量最小化过程计算最终倾斜角,如下式所示:S ^ = arg min S E ( S ) - - - ( 6 ) ]]> 该过程包括能量函数构建和能量最小化两个步骤,如下式所示:E(S)=ωEB(S)+(1-ω)EF(S) (7)ω=0.98,其中EB(S)考虑了全局背景信息,如下式所示:
设置
和φ(·)为:
Yi={sp|sp∈S∩yp∈sp∩yp=i} (9)Xj={sp|sp∈S∩xp∈sp∩xp=j}其中Sgn(·)是一个符号函数,定义为:
EF(S)反应了全局的前景信息,如下式所示:EF(S)=δ(S)+λ(S) (11)设置δ(·)和λ(·)为:δ ( S ) = 1 M Y 1 f ( Y ) Σ k = 1 f ( Y ) ( f ( Y k ) - Y ‾ ) 2 ]]>Y ‾ = 1 f ( Y ) Σ k = 1 f ( Y ) f ( Y k ) ]]> (12)λ ( S ) = 1 M X 1 f ( X ) Σ k = 1 f ( X ) ( f ( X k ) - X ‾ ) 2 ]]>X ‾ = 1 f ( X ) Σ k = 1 f ( X ) f ( X k ) ]]> 其中![]()
MY=max{f(Yi)|Yi∈Y},MX=max{f(Xi)|Xi∈X},且f(·)计算一个集合中元素的个数;构造完能量函数以后,根据直线拟合得到的初始倾斜角和所有前景像素的状态信息,通过反复地计算能量函数和旋转前景像素的状态信息,找到使得能量函数值最小时所旋转的角度,这个角度就是最终的倾斜角;状态信息的旋转过程如下:S′=rotate(S,θ) (13)其中rotate(·)计算每个前景像素的状态信息sp∈S旋转后的结果sp′,计算过程如下:x p ′ = ( x p - W 2 ) cos θ - ( y p - H 2 ) sin θ + W 2 ]]>y p ′ = ( x p - W 2 ) sin θ + ( y p - H 2 ) cos θ + H 2 - - - ( 14 ) ]]> wp′=W-xp′,hp′=H-yp′。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310321375.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于安装数控刀架安装钻头的装置
- 下一篇:电机壳立式铸造模具