[发明专利]文档文字的提取方法及提取装置在审

专利信息
申请号: 201710531861.6 申请日: 2017-06-30
公开(公告)号: CN107358184A 公开(公告)日: 2017-11-17
发明(设计)人: 王彦情;崔晓光;张吉祥 申请(专利权)人: 中国科学院自动化研究所;天津图智科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/38
代理公司: 中科专利商标代理有限责任公司11021 代理人: 任岩
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 文字 提取 方法 装置
【说明书】:

技术领域

发明涉及图像处理技术领域,尤其涉及一种文档文字的提取方法及提取装置。

背景技术

为了提高工作效率,实现文档基本信息的自动录入,是有关部门信息化保障的重要内容。常规文档文字的自动识别,已有比较成熟的技术和产品。但是对于文档文字区域上覆盖有图案的图像,其文档文字内容自动提取与识别的技术成熟度还有待提升。举例说,例如印章覆盖文档文字的图像,因用力不均、印泥质量差异、纸张厚度不均匀等物理因素的干扰,扫描仪、高拍仪或相机等成像设备自身特性的限制,以及光照、拍摄角度等成像环境的影响,导致盖有印章的图像会出现颜色深浅不均、图像模糊的现象存在。

关于印章与签名分离、印章识别等技术,已有人员开展相关研究,这些研究在特定背景或某些限定场合可以取得较好的成效。然而在实际应用中,图像中印章与文档文字内容存在多处重叠与交叉,印章出现的位置具有一定的随机性、印章种类呈现多样性,现有方法在解决这些问题时普适性不够。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种文档文字的提取方法及提取装置,以解决上述的至少一项技术问题。

(二)技术方案

本发明的一方面,提供了一种文档文字的提取方法,包括步骤:

从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;

对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;

从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内的文字文档部分的颜色与图案所包含的颜色不同;

融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。

可选地,还可以包括步骤:对所述文字文档进行形态学操作,连接其上的断点,并去除孤立的噪声点。

可选地,所述图像由原始图像可以经过预处理得到,所述预处理包括对比度增强处理。

可选地,所述原始图像可以通过扫描仪或者成像设备获得。

可选地,提取与图案所包含的颜色相同的同色区域之前还可以包括步骤:将图像中的RGB(三原色光模式)颜色空间转换为HSI(色彩空间)颜色空间。

可选地,将所述前景区域和背景区域设置为不同的颜色,所述不同的颜色为黑色和白色。

可选地,所述灰度处理包括灰度化及二值分割处理。

可选地,所述灰度化处理的公式为Gray=R*0.299+G*0.587+B*0.114,Gray代表灰度,R代表图像的红色通道,G代表图像的绿色通道,B代表图像的蓝色通道;

所述二值分割处理包括Otsu(最大类间误差法)、迭代法或者最小误差法。

可选地,该图案的轮廓形状的提取方法包括(Hough)霍夫变换。

本发明的另一方面,还提供了一种文档文字的提取装置,包括:

存储器,用于存储可执行指令;

处理器,用于执行存储器中的可执行指令,在执行可执行指令时依照上述方法进行操作。

(三)有益效果

本发明相较于现有技术具有以下优点:

1、本发明的文档文字的提取方法,采用计算机视觉与图像处理技术,适用于通过扫描仪获取的图像,也适用于通过高拍仪等成像设备获取的图像,还可用于电子公文图像,其应用范围广泛,具有普适性。

2、本发明的文档文字的提取方法,还采取了预处理,以更好地处理深浅不均、模糊图案的图像,从而能够更精准地提取文档文字区域。

3、本发明还对文档文字区域进行形态学操作,连接文档文字上的断点,并去除噪声点,以解决图像中同色区域与文档文字区域存在多处重叠与交叉时,提取的文档文字断断续续的问题。

附图说明

图1为本发明实施例的文档文字的提取方法的步骤示意图;

图2为本发明一具体实施例的图像的示意图;

图3为本发明一具体实施例的纯公章区域的示意图;

图4为本发明一具体实施例的前景区域和背景区域的示意图;

图5为本发明一具体实施例的文档文字区域提取结果的示意图;

图6为本发明实施例的文档文字的提取装置的结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;天津图智科技有限公司,未经中国科学院自动化研究所;天津图智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710531861.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top