[发明专利]一种文本图像的手写汉字分割方法及系统有效
申请号: | 201910832751.2 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110516674B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 魏东琦;赛琳伟;王占昌;唐亚明;杨博 | 申请(专利权)人: | 中国地质调查局西安地质调查中心 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06V10/764 |
代理公司: | 合肥超通知识产权代理事务所(普通合伙) 34136 | 代理人: | 龚存云 |
地址: | 710054 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 手写 汉字 分割 方法 系统 | ||
1.一种文本图像的手写汉字分割方法,其特征在于,包括:
将文本图像进行二值化和去除背景网格线操作,获得预处理文档;
采用大小为2×128的区域对所述预处理文档做平均池化,得到每行区域;
对所述每行区域分割成一块或多块,再进行合并,得到每个字的区域,使得一个汉字的偏旁和部首能正确地合并在一起;
所述二值化操作采用k均值聚类算法将所述文本图像地所有像素聚类为两类,对两类分别赋值,对应背景颜色和字符颜色,获得二值图像;
所述去除背景网格线操作包括:
先搜索所述文本图像中的横线条,保存为横线条图像;
再将所述文本图像旋转90°,搜索所述文本图像中的竖线条,保存为竖线条图像;
检测所述横线条图像或竖线条图像每处是否有穿过的笔画,如果没有,直接删除所述横线条图像或竖线条图像,如果有,则通过构造四种横竖撇捺线条的卷积核进行去除操作;
所述通过构造四种横竖撇捺线条的卷积核进行去除操作的步骤包括:
先找到所述文本图像中长度超过15像素的横竖撇捺线条,即倾角为0°、90°、45°、135°的线条,分别构造这4种大小为15×15的卷积核K1、K2、K3、K4:
这4种卷积核将分别提取横、竖、撇、捺线条,用它们去卷积预处理后的二值图像,记卷积后的图像分别为C1,C2,C3,C4;
若横线条图像某位置不为0,而C2,C3,C4中对应位置至少有一个不为0,将横线条图像中该像素置0;
同样,若竖线条图像某位置不为0,而C1,C3,C4中对应位置至少有一个不为0,将竖线条图像中该像素置0;
最后将横线条图像和竖线条图像做或操作,再取非,与所述二值图像做与操作。
2.根据权利要求1所述的文本图像的手写汉字分割方法,其特征在于,所述池化操作包括:
先使用核为2×128的全1矩阵,步长为1×32对预处理文档进行卷积,使同一行的字落入同一个连通集里。
3.根据权利要求2所述的文本图像的手写汉字分割方法,其特征在于,对所述每行区域分割成一块或多块,包括粗分割的步骤。
4.根据权利要求3所述的文本图像的手写汉字分割方法,其特征在于,对所述每行区域分割成一块或多块,进一步包括字间连笔分割的步骤。
5.根据权利要求4所述的文本图像的手写汉字分割方法,其特征在于,对所述每行区域分割成一块或多块,进一步包括重叠区域合并的步骤。
6.根据权利要求5所述的文本图像的手写汉字分割方法,其特征在于,所述合并采用动态规划算法或统计自然语言处理方法。
7.一种文本图像的手写汉字分割系统,其特征在于,包括:
预处理单元,用于将文本图像进行二值化和去除背景网格线操作,获得预处理文档;
行处理单元,用于采用大小为2×128的区域对所述预处理文档做平均池化,得到每行区域;
列处理单元,用于对所述每行区域分割成一块或多块,再进行合并,得到每个字的区域,使得一个汉字的偏旁和部首能正确地合并在一起;
所述二值化操作采用k均值聚类算法将所述文本图像地所有像素聚类为两类,对两类分别赋值,对应背景颜色和字符颜色,获得二值图像;
所述去除背景网格线操作包括:
先搜索所述文本图像中的横线条,保存为横线条图像;
再将所述文本图像旋转90°,搜索所述文本图像中的竖线条,保存为竖线条图像;
检测所述横线条图像或竖线条图像每处是否有穿过的笔画,如果没有,直接删除所述横线条图像或竖线条图像,如果有,则通过构造四种横竖撇捺线条的卷积核进行去除操作;
所述通过构造四种横竖撇捺线条的卷积核进行去除操作的步骤包括:
先找到所述文本图像中长度超过15像素的横竖撇捺线条,即倾角为0°、90°、45°、135°的线条,分别构造这4种大小为15×15的卷积核K1、K2、K3、K4:
这4种卷积核将分别提取横、竖、撇、捺线条,用它们去卷积预处理后的二值图像,记卷积后的图像分别为C1,C2,C3,C4;
若横线条图像某位置不为0,而C2,C3,C4中对应位置至少有一个不为0,将横线条图像中该像素置0;
同样,若竖线条图像某位置不为0,而C1,C3,C4中对应位置至少有一个不为0,将竖线条图像中该像素置0;
最后将横线条图像和竖线条图像做或操作,再取非,与所述二值图像做与操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质调查局西安地质调查中心,未经中国地质调查局西安地质调查中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832751.2/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序