[发明专利]一种电子文档自动识别系统及方法在审

专利信息
申请号: 202110527087.8 申请日: 2021-05-14
公开(公告)号: CN113361330A 公开(公告)日: 2021-09-07
发明(设计)人: 尹源 申请(专利权)人: 南京诚勤教育科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06K9/34;G06K9/40;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京中建联合知识产权代理事务所(普通合伙) 11004 代理人: 王晓艳
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 电子 文档 自动识别 系统 方法
【说明书】:

发明涉及文字识别技术领域,具体涉及一种电子文档自动识别系统及方法,本发明对图像进行高斯模型拟合得到特征值波动范围,并采用最大最小值算法分割区域;用高斯拟合每个分割区域并估计特征参数值,让重叠点加入到相邻区域内;重新估计新区域参数并与旧区域参数作比较后做相应处理,得出图像中文本的分割区域;使用深度学习算法经过文字信息采集、信息分析和处理、信息分类和判断后得到电子文本。本发明通过Laplacian算子检测出已被二值化的图像边缘,然后去除噪声,增加了文本定位的准确性,对图像进行高斯模型拟合进一步的得到了划分的文字段,最后通深度学习算法得到了精确的文本信息,其过程更加流程,得到的文本信息更加的准确。

技术领域

本发明涉及文字识别技术领域,具体涉及一种电子文档自动识别系统及方法。

背景技术

随着智能手机、数码相机、摄像机和平板电脑的普遍应用,图像和视频数据随时都在大量产生。图像和视频相对于传统的网络媒体表现内容更加直观和多样化,也往往包含更多的信息量。互联网的飞速发展极大地促进了图像和视频的传播,因此图像和视频正逐步代替文本在互联网上占据主流地位。为了利用海量图像和视频中的信息以及便于对其存储和查找,迫切需要我们研究如何让计算机自动地读取图像和视频的内容。长久以来,图像理解始终是计算机视觉领域中研究的难点问题。由于计算机仅仅利用普通的视觉元素(如人、太阳、山和建筑等)及其相互之间的关系缺乏足够的上下文信息和约束条件,不能准确的推导出图像内容的含义。

为了解决图像中文字信息提取困难,从20世纪50年代文字识别方法就开始探讨并研制出了光学字符识别器。到60年代后期手写体文字识别技术逐渐成熟,而且在识别精度和性能上基本能够满足需求。此时关于汉字识别研究也逐渐开展起来,例如BM 公司的Casey 与Nagy于 1966年发表了关于印刷体汉字识别论文。到70年代末,我国开始重视汉字字符识别研究,随后我国字符识别技术研究逐渐开展起来。到90年代中后期,清华大学开始综合研究汉字识别技术,这使得关于汉字的印刷体识别以及联机、脱机手写识别技术等取得巨大进步。近年来图像字符识别技术开始倾向于复杂的场景文字的研究,面对oCR技术的成熟与OCR局限性,大量学者开始着手场景文字识别的理论研究。然而就目前来看,由于场景文字复杂性,场景文字识别的技术离现实产品的实现还有一段差距。

发明内容

针对现有技术的不足,本发明公开了一种电子文档自动识别系统及方法,用于解决更准确的提取图像中的文本。

本发明通过以下技术方案予以实现:

第一方面,本发明公开了一种电子文档自动识别方法,包括以下步骤:

S1获取待识别图片,对图片进行二值化处理,并利用Laplacian算子检测出已被二值化的图像边缘,然后去除噪声;

S2用笔画刷子将边缘信息连接成块,通过启发规则对图像中的文本进行定位;

S3对图像进行高斯模型拟合得到特征值波动范围,并采用最大最小值算法分割区域;

S4用高斯拟合每个分割区域并估计特征参数值,让重叠点加入到相邻区域内;

S5重新估计新区域参数并与旧区域参数作比较后做相应处理,得出图像中文本的分割区域;

S6使用深度学习算法经过文字信息采集、信息分析和处理、信息分类和判断后得到电子文本。

更进一步的,所述方法中,利用基于窗口方法遍历整幅图像,同时提取窗口中LBP直方图的特征,最后利用多项式神经网络分类器对区域进行分类,实现图像中的文本定位。

更进一步的,所述方法中,用高斯拟合每个分割区域并估计特征参数值,让重叠点加入到相邻区域内,然后重新估计新区域参数并与旧区域参数作比较,如果小于标准范围,则归并重叠点,否则归并到其它相邻区域,直到得出图像中文本的分割区域为止。

更进一步的,所述S6中基于SWT文字检测进行文字识别,包括如下步骤:

T1用SWT为图像中每个像素分配它所属位置笔画宽度的像素值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京诚勤教育科技有限公司,未经南京诚勤教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110527087.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top