[发明专利]大票据图片文字识别方法有效
申请号: | 201711403971.0 | 申请日: | 2017-12-22 |
公开(公告)号: | CN109977723B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 詹智财;罗阳;周鹏程;代稳 | 申请(专利权)人: | 苏宁云商集团股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06Q40/00 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 210042 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 图片 文字 识别 方法 | ||
1.一种大票据图片文字识别方法,其特征在于,所述方法包括:
步骤S1、将纸质票据转化为图片格式;
步骤S2、对形成为图片格式的票据进行图像预处理;
步骤S3、对预处理后的票据图片进行区域分割,得到该票据图片的多个图片块,所述的分割包括:
将预处理后的票据图片设定分割顺序,且以重叠区域为N个像素,窗口大小为C×C进行区域分割,得到多个图片块;
步骤S4、对票据图片的多个图片块进行文本行区域的目标检测;
步骤S5、对多个图片块中获取的各文本行区域进行融合,得到完整的文本行区域,所述的融合包括:
按照每个图片块原本位于纸质票据图片中的相对位置,对每个图片块按照之前设定分割顺序的逆顺序进行处理;所述处理包括:
基于当前图片块,以及当前图片块邻近三个方位区域的共四个图片块,进行过滤,过滤掉完全包含的子区域;
基于当前图片块与邻近任一图片块中N个像素的区域存在相交的重叠区域,将当前图片块的文本区域融入到另一个区域,删除当前图片块的该重叠区域;
经过上述删除、过滤之后,收集所有图片块中的文本区域作为原始票据图片中的完整文本行区域;
步骤S6、获取票据图片中完整的文本行区域,进行图片文字转计算机文字;
步骤S7、基于不同纸质票据的需求,给出特定区域的计算机文字结果。
2.根据权利要求1所述的方法,其特征在于,在步骤S2中,所述预处理包括:
对票据图片进行去噪处理;
其中,针对非表格式的票据图片,直接进入步骤S3进行图片分割;
针对表格式的票据图片,则进行图片角度修正的步骤。
3.根据权利要求2所述的方法,其特征在于,所述图片角度修正的步骤包括:
采用傅里叶变换,将图片的空间域信息转换到频域上;
通过Hough线检测,得到旋转角度;
进行角度逆旋转,恢复为原图片角度。
4.根据权利要求3所述的方法,其特征在于,在步骤S3中,设定每个图片块的区域为:bi,j=I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:],其中,I表示图片,i表示行,j表示列,H表示高度,W表示宽度,且
5.根据权利要求4所述的方法,其特征在于,在所述步骤S4中,对区域分割后的图片块进行文本行区域的目标检测,包括:
以行为单位,对票据图片进行人工区域标注;
将标注好的图片组成训练集,通过目标检测模型进行训练,直至收敛;
将分割后的图片块放入训练好的目标检测模型进行文本行区域的目标检测,获取每个图片块中文本行区域的坐标并输出。
6.根据权利要求5所述的方法,其特征在于,在所述步骤S6中,所述的图片文字转计算机文字,包括:
基于完整的文本行区域的坐标,获取票据图片中每个完整的文本行区域;
采用深度学习中基于注意力机制的图片转文字模型,对获取的文字区域转计算机文字。
7.根据权利要求6所述的方法,其特征在于,所述基于注意力机制的图片转文字模型由如下步骤所得:
基于票据文本行内容,人工标注票据图片的区域坐标,并将其组成训练集;
对基于深度学习的注意力机制的CNN与LSTM组成的混合模型进行训练,直至收敛;
将分割后的图片块的文本行区域放入训练完成的混合模型进行文本行识别。
8.根据权利要求3所述的方法,其特征在于,在恢复为原图片角度之后,还包括对图片画质进行增强处理的步骤。
9.如权利要求5所述的方法,其特征在于,所述目标检测模型为SSD模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云商集团股份有限公司,未经苏宁云商集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711403971.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可转动的电子支付装置
- 下一篇:一种水下目标分类方法