[发明专利]一种多规格文本协同定位和提取方法在审
申请号: | 201711360636.7 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108875721A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 严京旗;张成栋;李进文;罗宝娟 | 申请(专利权)人: | 南通艾思达智能科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 226299 江苏省南通*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本块 搜索 局部优化 文本协同 采集 协同 文本图像数据 格式化 格式化数据 图像归一化 单字 背景信息 定位结果 分离图像 目标检测 前景信息 图像处理 文本区域 文本信息 预设格式 噪声信息 漏检 文本 退化 输出 全局 优化 | ||
本发明涉及一种多规格文本协同定位和提取方法,包括如下步骤:步骤110获取文本图像数据;步骤120、图像归一化操作;步骤130、分离图像背景信息和需要采集的前景信息;步骤140、全局协同搜索,提取出预设格式的各个文本块区域;步骤150、局部优化搜索,在小范围内逐个优化各个文本区域的位置;步骤160输出各个文本块定位结果,提供给后续单字切分和识别模块。本发明利用图像处理、目标检测、协同搜索、局部优化等技术,满足格式化数据采集的要求,克服某些文本块退化后的漏检和错检问题并最大程度避免不必要的文本和噪声信息的干扰,提高格式化文本信息采集的准度和精度。
技术领域
本发明属于图像处理和目标检测技术领域,具体涉及一种多规格文本协同定位和提取方法。
背景技术
近年来,随着数字成像设备的普及和深度学习算法的广泛应用,文本识别软件不断涌现,如汉王、腾讯云识别、百度云识别等,文本识别精度不断提升。但是,这些文本识别软件是通用识别,只要图像中出现的文字都会尝试识别,除了返回识别结果和坐标位置,很难对识别结果进行分类归集,不能直接满足有格式要求的文本识别和数字化采集的应用需求。
发明内容
本发明提供一种多规格文本协同定位和提取方法以解决目前存在的文本识别软件很难对识别结果进行分类归集,不能直接满足有格式要求的文本识别和数字化采集的应用需求的问题。
本发明的具体技术方案如下:
一种多规格文本协同定位和提取方法,其特征在于,所述方法包括如下步骤:步骤110,获取文本图像数据;
步骤120,图像归一化操作;图像归一化的方法包括,直线检测、旋转变换、尺度变换、亮度均衡,通过归一化操作得到大小、亮度、方向一致的文本图像;
步骤130,在步骤120之后,分离图像背景信息和需要采集的前景信息;可通过色彩通道、亮度、颜色比例来分离背景信息和需要采集的前景信息;
步骤140,全局协同搜索;在步骤130确定前景信息后,加载预先设定的格式化模板,通过全局协同搜索,得到有效信息最大化的位置,从而提取出预设格式的各个文本块区域;
步骤150,局部优化搜索;在步骤140确定全局的格式文本区域后,在小范围内逐个优化各个文本块区域的位置;
步骤160,输出;在步骤150局部优化搜索后,输出各个文本块,提供给后续单字切分和识别模块,文本定位和提取结束。
进一步,步骤110获取图像数据的方法可以为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像数据;
方法3是用数码相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
进一步,步骤120图像归一化操作具体包括如下步骤:
步骤210,采用直线检测的方法检测出文本图像的直线,选取长度超过阈值的直线作为考察对象;
步骤220,求取这些直线与水平线的平均夹角作为旋转角,旋转图像使得文本行处于水平位置;
步骤230,在旋转后的图像中,提取包围感兴趣目标的最大矩形,即感兴趣区域ROI,根据最大矩形进行尺度变换,使得ROI的大小保持一致;
步骤240,求取ROI内所有像素的平均亮度,并归一化到设定的平均亮度值,从而完成图像的归一化操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通艾思达智能科技有限公司,未经南通艾思达智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711360636.7/2.html,转载请声明来源钻瓜专利网。