[发明专利]一种多规格文本协同定位和提取方法在审

申请号：	201711360636.7	申请日：	2017-12-18
公开（公告）号：	CN108875721A	公开（公告）日：	2018-11-23
发明（设计）人：	严京旗;张成栋;李进文;罗宝娟	申请（专利权）人：	南通艾思达智能科技有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	226299 江苏省南通***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本块搜索局部优化文本协同采集协同文本图像数据格式化格式化数据图像归一化单字背景信息定位结果分离图像目标检测前景信息图像处理文本区域文本信息预设格式噪声信息漏检文本退化输出全局优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种多规格文本协同定位和提取方法，包括如下步骤：步骤110获取文本图像数据；步骤120、图像归一化操作；步骤130、分离图像背景信息和需要采集的前景信息；步骤140、全局协同搜索，提取出预设格式的各个文本块区域；步骤150、局部优化搜索，在小范围内逐个优化各个文本区域的位置；步骤160输出各个文本块定位结果，提供给后续单字切分和识别模块。本发明利用图像处理、目标检测、协同搜索、局部优化等技术，满足格式化数据采集的要求，克服某些文本块退化后的漏检和错检问题并最大程度避免不必要的文本和噪声信息的干扰，提高格式化文本信息采集的准度和精度。

技术领域

本发明属于图像处理和目标检测技术领域，具体涉及一种多规格文本协同定位和提取方法。

背景技术

近年来，随着数字成像设备的普及和深度学习算法的广泛应用，文本识别软件不断涌现，如汉王、腾讯云识别、百度云识别等，文本识别精度不断提升。但是，这些文本识别软件是通用识别，只要图像中出现的文字都会尝试识别，除了返回识别结果和坐标位置，很难对识别结果进行分类归集，不能直接满足有格式要求的文本识别和数字化采集的应用需求。

发明内容

本发明提供一种多规格文本协同定位和提取方法以解决目前存在的文本识别软件很难对识别结果进行分类归集，不能直接满足有格式要求的文本识别和数字化采集的应用需求的问题。

本发明的具体技术方案如下：

一种多规格文本协同定位和提取方法，其特征在于，所述方法包括如下步骤：步骤110，获取文本图像数据；

步骤120，图像归一化操作；图像归一化的方法包括，直线检测、旋转变换、尺度变换、亮度均衡，通过归一化操作得到大小、亮度、方向一致的文本图像；

步骤130，在步骤120之后，分离图像背景信息和需要采集的前景信息；可通过色彩通道、亮度、颜色比例来分离背景信息和需要采集的前景信息；

步骤140，全局协同搜索；在步骤130确定前景信息后，加载预先设定的格式化模板，通过全局协同搜索，得到有效信息最大化的位置，从而提取出预设格式的各个文本块区域；

步骤150，局部优化搜索；在步骤140确定全局的格式文本区域后，在小范围内逐个优化各个文本块区域的位置；

步骤160，输出；在步骤150局部优化搜索后，输出各个文本块，提供给后续单字切分和识别模块，文本定位和提取结束。

进一步，步骤110获取图像数据的方法可以为以下五种方法之一：

方法1是用智能手机拍摄得到的图像；

方法2是用扫描仪得到的图像数据；