[发明专利]基于形态学与积分投影的印刷体维吾尔文文档切分方法有效
申请号: | 201610693442.8 | 申请日: | 2016-08-19 |
公开(公告)号: | CN106372639B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 卢朝阳;王小弟;李静;郎潇;艾合买提·阿卜力皮孜 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,主要解决现有切分方法中,获取行文档图像时灵活性限制问题,获取单字符图像时 |
||
搜索关键词: | 基于 形态学 积分 投影 印刷体 维吾尔文 文档 切分 方法 | ||
【主权项】:
1.一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,包括以下步骤:(1)输入二值图像:输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像;(2)获取行文档图像:(2a)利用形态学膨胀算法,对输入的二值图像进行膨胀处理,得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像;(2b)采用四邻域种子填充连通域算法,提取膨胀图像的每个连通域;(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界,下边作为每幅行文档图像的下边界,得到与每个连通域对应的多幅行文档图像;(3)获取子单词图像:(3a)从多幅行文档图像中选取任意一幅行文档图像;(3b)采用四邻域种子填充连通域算法,依次提取所选取的行文档图像中所有的连通域;(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域;(3d)判断最近连通域是否在所选连通域的关联位置,若是,则执行步骤(3e),否则,执行步骤(3f);所述的关联位置是指,最近连通域的位置在所选连通域的左上方、正上方、右上方、左下方、正下方、右下方,所选连通域相邻最近的连通域在所选连通域的内部中的任意一种情形;(3e)将所选连通域和最近连通域,分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分;(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像;(3g)判断所选取的行文档图像中所有的连通域是否选取完,若是,则执行步骤(3h),否则,执行步骤(3c);(3h)得到所选取行文档图像的所有子单词图像;(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完,若是,则执行步骤(3g),否则,执行步骤(3a);(3g)得到多幅行文档图像中的所有子单词图像;(4)获取连体段图像:(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像;(4b)按照下式,计算所选子单词图像的纵横比:
其中,ration表示所选子单词图像的纵横比,w表示所选子单词图像的宽,h表示所选子单词图像的高;(4c)设定一个阈值T,T=0.72;(4d)判断所选子单词图像的纵横比是否大于等于阈值T,若是,则执行步骤(4e),否则,执行步骤(4f);(4e)将所选子单词图像作为连体段图像;(4f)将所选子单词图像作为独立字符图像;(4g)判断多幅行文档图像中的所有子单词图像是否都选取完,若是,则执行步骤(4h),否则,执行步骤(4a);(4h)得到多幅行文档图像中的所有连体段图像;(5)获取只有主体笔画部分的连体段图像:(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像;(5b)消除所选取连体段图像的附加笔画部分,得到只有主体笔画部分的连体段图像;(5c)判断多幅行文档图像中的所有连体段像是否都选取完,若是,则执行步骤(5d),否则,执行步骤(5a);(5d)得到多幅行文档图像中的所有连体段图像中,只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域:(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中,选取任意一幅只有主体笔画部分的连体段图像;(6b)提取所选取只有主体笔画部分连体段图像的轮廓,得到所选取的只有主体笔画部分连体段图像的轮廓图像;(6c)按照下式,计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影:
其中,H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影,i=0,1,...,a,a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数,b表示所选取的只有主体笔画部分连体段图像的轮廓图像的总列数,∑表示求和操作,j表示所选取的只有主体笔画部分连体段图像的轮廓图像中的第j列,j=0,1,...b,h(i,j)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行第j列的像素值;(6d)将水平积分投影H(i)最大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的上边界bstart,将水平积分投影H(i)次大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的下边界bend;(6e)按照下式,计算所选取的只有主体笔画部分连体段图像的基线域高度:l=bend‑bstart其中,l表示所选取的只有主体笔画部分连体段图像的基线域高度,bstart表示所选取的只有主体笔画部分连体段图像基线域的上边界,bend表示所选取的只有主体笔画部分连体段图像基线域的下边界;(6e)判断所有的只有主体笔画部分连体段图像是否都选取完,若是,则执行步骤(6f),否则,执行步骤(6a);(6f)得到所有的只有主体笔画部分连体段图像的基线域的高度;(7)获取单字符图像:(7a)从所有的只有主体笔画部分连体段图像中,任意选取一幅只有主体笔画部分连体段图像;(7b)分别将所选取的只有主体笔画部分连体段图像的基线域、基线域下边界bend以下连续的四分之三部分置白;(7c)利用垂直积分投影公式,计算置白后图像中每一列对应的垂直积分投影;(7d)从置白后图像中寻找满足下式的所有的列,作为切分线:V(q‑1)≠0V(q)=0其中,V(q‑1)表示置白后图像中第q‑1列的垂直积分投影,V(q)表示置白后图像中第q列的垂直积分投影;(7e)将两个相邻的切分线之间的图像作为单字符图像,保存到计算机中;(7f)判断所有的只有主体笔画部分连体段图像是否都选取完,若是,则执行步骤(7g),否则,执行步骤(7a);(7g)得到多幅行文档图像中的中的所有单字符图像。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610693442.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种矿山火灾预警阻隔装置
- 下一篇:一种流体动力转化装置