[发明专利]用于OCR识别的数据增广方法、装置、设备及存储介质有效

专利信息
申请号: 202110991555.7 申请日: 2021-08-27
公开(公告)号: CN113435426B 公开(公告)日: 2021-11-16
发明(设计)人: 不公告发明人 申请(专利权)人: 珠海亿智电子科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62;G06F40/216;G06F40/242
代理公司: 深圳青年人专利商标代理有限公司 44350 代理人: 吴桂华
地址: 519000 广东省珠海市高新区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 ocr 识别 数据 增广 方法 装置 设备 存储 介质
【说明书】:

发明适用于字符识别技术领域,提供了一种用于OCR识别的数据增广方法、装置、设备及存储介质,该方法包括:通过建立识别字典,基于识别字典和已获取的开源数据集建立第一词频字典,基于第一词频字典建立合成数据集文本文档,基于已建立的数据集属性、OCR识别的应用场景以及合成数据集文本文档对当前数据集进行数据增广,得到增广后的基础数据集,从而在降低OCR深度算法中获取训练样本的成本的同时,提高了数据增广的针对性。

技术领域

本发明属于字符识别技术领域,尤其涉及一种用于OCR识别的数据增广方法、装置、设备及存储介质。

背景技术

OCR(Optical Character Recognition, 光学字符识别)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR识别应用领域广泛,例如证件识别,文档识别等。

目前OCR主要有两种方法:基于传统的OCR算法和基于深度学习的OCR方法。近年来,深度学习网络结构的应用使得OCR识别精度和稳定性远远高于传统的OCR方法。但是,深度学习依赖于大量的训练样本,针对中文文档识别,包含中英数字,常见字符通常在6K-8K,所需数据量在百万级别甚至千万级别,OCR识别性能取决于获取到数据集的数量和种类。针对中文文档,要想取得较为理想的OCR性能,需要千万级别的数据量,而仅仅依靠于人工标注并不现实,现有的数据增广方式主要是针对不同背景进行,中文文档识别背景种类较为单一,但是包含字符种类较多,尤其是罕见字种类较多,词频较少。

发明内容

本发明的目的在于提供一种用于OCR识别的数据增广方法、装置、设备及存储介质,旨在解决现有技术中采用人工标注获取训练样本成本高而采用数据增广方式获取到的训练样本针对性差的问题。

一方面,本发明提供一种用于OCR识别的数据增广方法,所述方法包括下述步骤:

建立识别字典;

基于所述识别字典和已获取的开源数据集建立第一词频字典;

基于所述第一词频字典建立合成数据集文本文档;

基于已建立的数据集属性、OCR识别的应用场景以及所述合成数据集文本文档对当前数据集进行数据增广,得到增广后的基础数据集。

优选地,所述建立识别字典的步骤,包括:

根据字符种类调整所述识别字典中的字符位置;和/或

根据计算出的汉字的字形相似度调整所述识别字典中的字符位置;和/或

将所述识别字典中每个字符的标签进行序列化。

优选地,所述基于所述识别字典和已获取的开源数据集建立第一词频字典的步骤,还包括:

根据所述开源数据集建立索引文档;

遍历所述索引文档,并对所述识别字典中的每个字符进行计数,得到所述第一词频字典。

优选地,所述基于所述第一词频字典建立合成数据集文本文档的步骤,包括:

对所述第一词频字典中的词频进行均衡,得到第二词频字典;

基于所述第二词频字典建立所述合成数据集文本文档。

优选地,所述对所述第一词频字典中的词频进行均衡,得到第二词频字典的步骤,包括:

遍历所述第一词频字典中每个字符的第一词频;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海亿智电子科技有限公司,未经珠海亿智电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110991555.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top