[发明专利]基于连通分量和回归式字切分的彝文古籍字符检测方法有效
申请号: | 201910815873.0 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516673B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 韩旭;陈善雄;林小渝;邱小刚;李然康 | 申请(专利权)人: | 西南大学 |
主分类号: | G06V30/246 | 分类号: | G06V30/246;G06V30/164;G06V30/148 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 刘海艳 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连通 分量 回归 切分 彝文 古籍 字符 检测 方法 | ||
1.基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,所述方法包括如下步骤:
S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;
S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;
S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测;
步骤S3具体包括如下步骤:
S31、采取形态学腐蚀操作对图像中的文本区域进行处理,减少字符笔画的粘连程度;
S32、采用基于连通分量的方法对文本区域进行检测,实现文本区域的初步筛选;
S33、采用基于回归式自切分的图像投影法进行二次切分实现粘贴字符的分割;
步骤S32中,首先将满足以下特征的连通区域定义为文本区域:
公式(6)中,w,h分别表示图像的宽度和高度,分别表示连通区域最小外接矩的宽度和高度;采用如下公式对文本区域进行筛选:
公式(7)中,Den表示矩形框内黑色像素所占密度,N代表矩形框内黑色像素的总个数,分别代表连通域最小外接矩的高度和宽度;
步骤S33中,设L(X,Y)为某一连通区域图像的点阵,其中,X,Y分别表示连通域最小外接矩内的横纵坐标,WM为文字最大宽度,其中w为整个图像的宽度,回归范围为d,设第j个字符的起始位置为jA,采用回归式自切分方法实现列切分的具体流程如下:
S311、在jA≤x≤jA+WM之间计算第一个的点,设为jB,切出jA到jB之间的图像,其中表示连通域最小外接矩的高度;
S312、若jB-jA<δ,则认为是干扰噪声,忽略不计,否则转S314,其中δ为定常数;
S313、在jA+WM-d≤x≤jA+WM 范围内求的最小值jB;
S314、从jB做一条垂线作为文字的分割线,第j个字的宽度为jB-jA;
S315、从jB开始计算当值不为0且jAjB时,jA即为第j+1个元素的左边界,然后重复执行以上的步骤。
2.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S2具体包括如下步骤:
S21、去除图像中小的噪点;
S22、去除图像中的分割线、标点符号和图画装饰;
S23、将非文本区域连通域进行过滤。
3.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S21中,将面积小于20像素的连通域标记为小的噪点;连通域面积的计算方式为该连通域最小外接矩内像素点的个数,具体为令x,y分别表示图像的横纵坐标,设函数f(x,y)表示在二值图像中的像素点是否为图像的前景像素:
然后,利用以下公式将像素点累加:
公式(2)中,分别表示连通区域最小外接矩的宽度和高度。
4.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S22中,基于定义的非文本区域实现分割线、标点符号和图画装饰进行去除,其中,将满足以下特征的连通区域定义为非文本区域:
公式(3)、(4)中,w,h分别表示二值图像的宽度和高度,分别表示连通区域最小外接矩的宽度和高度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910815873.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:卡证信息识别方法、装置及终端
- 下一篇:一种文本图像的手写汉字分割方法及系统