[发明专利]一种文本图像的手写汉字分割方法及系统有效

专利信息
申请号: 201910832751.2 申请日: 2019-09-04
公开(公告)号: CN110516674B 公开(公告)日: 2023-04-18
发明(设计)人: 魏东琦;赛琳伟;王占昌;唐亚明;杨博 申请(专利权)人: 中国地质调查局西安地质调查中心
主分类号: G06V20/62 分类号: G06V20/62;G06V10/26;G06V10/764
代理公司: 合肥超通知识产权代理事务所(普通合伙) 34136 代理人: 龚存云
地址: 710054 陕西*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 图像 手写 汉字 分割 方法 系统
【权利要求书】:

1.一种文本图像的手写汉字分割方法,其特征在于,包括:

将文本图像进行二值化和去除背景网格线操作,获得预处理文档;

采用大小为2×128的区域对所述预处理文档做平均池化,得到每行区域;

对所述每行区域分割成一块或多块,再进行合并,得到每个字的区域,使得一个汉字的偏旁和部首能正确地合并在一起;

所述二值化操作采用k均值聚类算法将所述文本图像地所有像素聚类为两类,对两类分别赋值,对应背景颜色和字符颜色,获得二值图像;

所述去除背景网格线操作包括:

先搜索所述文本图像中的横线条,保存为横线条图像;

再将所述文本图像旋转90°,搜索所述文本图像中的竖线条,保存为竖线条图像;

检测所述横线条图像或竖线条图像每处是否有穿过的笔画,如果没有,直接删除所述横线条图像或竖线条图像,如果有,则通过构造四种横竖撇捺线条的卷积核进行去除操作;

所述通过构造四种横竖撇捺线条的卷积核进行去除操作的步骤包括:

先找到所述文本图像中长度超过15像素的横竖撇捺线条,即倾角为0°、90°、45°、135°的线条,分别构造这4种大小为15×15的卷积核K1、K2、K3、K4

这4种卷积核将分别提取横、竖、撇、捺线条,用它们去卷积预处理后的二值图像,记卷积后的图像分别为C1,C2,C3,C4

若横线条图像某位置不为0,而C2,C3,C4中对应位置至少有一个不为0,将横线条图像中该像素置0;

同样,若竖线条图像某位置不为0,而C1,C3,C4中对应位置至少有一个不为0,将竖线条图像中该像素置0;

最后将横线条图像和竖线条图像做或操作,再取非,与所述二值图像做与操作。

2.根据权利要求1所述的文本图像的手写汉字分割方法,其特征在于,所述池化操作包括:

先使用核为2×128的全1矩阵,步长为1×32对预处理文档进行卷积,使同一行的字落入同一个连通集里。

3.根据权利要求2所述的文本图像的手写汉字分割方法,其特征在于,对所述每行区域分割成一块或多块,包括粗分割的步骤。

4.根据权利要求3所述的文本图像的手写汉字分割方法,其特征在于,对所述每行区域分割成一块或多块,进一步包括字间连笔分割的步骤。

5.根据权利要求4所述的文本图像的手写汉字分割方法,其特征在于,对所述每行区域分割成一块或多块,进一步包括重叠区域合并的步骤。

6.根据权利要求5所述的文本图像的手写汉字分割方法,其特征在于,所述合并采用动态规划算法或统计自然语言处理方法。

7.一种文本图像的手写汉字分割系统,其特征在于,包括:

预处理单元,用于将文本图像进行二值化和去除背景网格线操作,获得预处理文档;

行处理单元,用于采用大小为2×128的区域对所述预处理文档做平均池化,得到每行区域;

列处理单元,用于对所述每行区域分割成一块或多块,再进行合并,得到每个字的区域,使得一个汉字的偏旁和部首能正确地合并在一起;

所述二值化操作采用k均值聚类算法将所述文本图像地所有像素聚类为两类,对两类分别赋值,对应背景颜色和字符颜色,获得二值图像;

所述去除背景网格线操作包括:

先搜索所述文本图像中的横线条,保存为横线条图像;

再将所述文本图像旋转90°,搜索所述文本图像中的竖线条,保存为竖线条图像;

检测所述横线条图像或竖线条图像每处是否有穿过的笔画,如果没有,直接删除所述横线条图像或竖线条图像,如果有,则通过构造四种横竖撇捺线条的卷积核进行去除操作;

所述通过构造四种横竖撇捺线条的卷积核进行去除操作的步骤包括:

先找到所述文本图像中长度超过15像素的横竖撇捺线条,即倾角为0°、90°、45°、135°的线条,分别构造这4种大小为15×15的卷积核K1、K2、K3、K4

这4种卷积核将分别提取横、竖、撇、捺线条,用它们去卷积预处理后的二值图像,记卷积后的图像分别为C1,C2,C3,C4

若横线条图像某位置不为0,而C2,C3,C4中对应位置至少有一个不为0,将横线条图像中该像素置0;

同样,若竖线条图像某位置不为0,而C1,C3,C4中对应位置至少有一个不为0,将竖线条图像中该像素置0;

最后将横线条图像和竖线条图像做或操作,再取非,与所述二值图像做与操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质调查局西安地质调查中心,未经中国地质调查局西安地质调查中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910832751.2/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top