[发明专利]生成字符分类器的训练样本的方法和设备在审

专利信息
申请号: 201210110613.1 申请日: 2012-04-16
公开(公告)号: CN103377377A 公开(公告)日: 2013-10-30
发明(设计)人: 陈思源;潘屹峰;何源;孙俊 申请(专利权)人: 富士通株式会社
主分类号: G06K9/62 分类号: G06K9/62;G06K9/20
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 杜诚;李春晖
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生成 字符 分类 训练 样本 方法 设备
【说明书】:

技术领域

发明涉及自然场景字符识别技术,更具体地,涉及一种用于生成字符分类器的训练样本的方法和设备。

背景技术

自然场景的文字识别通常采取三个步骤:文字检测、笔画提取以及字符识别。其中,局部二值化的方法被广泛应用于从检测到的文字区域中提取文字笔画的处理。然而,由于一些复杂的成像因素,例如不均匀的光照条件、成像设备的低分辨率、目标物体表面的不规则、设备的抖动等,二值化的图像有可能会漏掉一些较小的笔画。丢失笔画的二值图像会对字符识别中图像归一化以及特征抽取的步骤造成不利的影响,从而降低识别的准确度。

另一方面,人工合成的训练样本被广泛应用于训练字符分类器以应对图像退化以及真实数据采集所遇到的问题。已有的生成人工合成数据的方法通常是针对扫描文档图像而非自然场景的图像。通常来说,目前较先进的方法采用伪随机的过程对模板图像引入噪声,从而模拟真实的图像退化。

发明内容

已有的方法只考虑了扫描文档图像中常见的噪声,通过在像素级别上引入噪声来模拟退化从而得到人工合成的样本,然而没有考虑到从自然场景取得的二值图像中笔画丢失的问题。

本发明提供一种新的人工合成训练样本的方法和设备,使得对传统方法造成困难的自然场景二值图像笔画丢失的问题得到缓解。

根据本发明的一个实施例,提供一种用于生成字符分类器的训练样本的方法,包括步骤:获得多个字符的二值样本图;以及针对二值样本图中的每个,识别该二值样本图中的连通部件;通过去除连通部件中面积低于预定标准的一个或更多个连通部件来生成新的二值样本图;以及将所生成的二值样本图添加为相应字符的训练样本。

根据本发明的另一个实施例,提供一种用于生成字符分类器的训练样本的设备,包括:样本获得装置,被配置为获得多个字符的二值样本图;以及样本处理装置,被配置为对多个字符的二值样本图中的每个进行处理以添加新的训练样本,其中,样本处理装置包括:连通部件识别部分,被配置为识别该二值样本图中的连通部件;样本生成部分,被配置为通过去除连通部件中面积低于预定标准的一个或更多个连通部件来生成新的二值样本图;以及样本添加部分,被配置为将新的二值样本图添加为相应字符的训练样本。

根据本发明实施例的方法和设备通过在笔画级别上引进噪声,能够模拟出自然场景图像出现的笔画丢失这种特定的退化现象,从而提高字符分类器的准确度。

附图说明

参照以下结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本发明,在附图中仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。

图1是图解根据本发明实施例的用于生成字符分类器的训练样本的方法的流程图;

图2a和图2b示出已有训练样本二值图和利用根据本发明的一个实施例的方法生成的相应新训练样本二值图的示例;

图3示出利用原有训练样本集合和利用根据本发明的一个实施例的方法添加了新训练样本的集合训练出的分类器的识别结果示例;

图4是示出根据本发明实施例的用于生成字符分类器的训练样本的设备的配置示例的框图;以及

图5是示出实现本发明的装置和方法的计算机的示例性结构的框图。

具体实施方式

下面参照附图说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1是图解根据本发明实施例的用于生成字符分类器的训练样本的方法的流程图。在步骤S110,获得多个字符的二值样本图;在步骤S120,针对二值样本图中的每个,识别该二值样本图中的连通部件;在步骤S130,通过去除连通部件中面积低于预定标准的一个或更多个连通部件来生成新的二值样本图;在步骤S140,将所生成的二值样本图添加为相应字符的训练样本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210110613.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top