[发明专利]一种基于深度学习网络的发票照片位置矫正方法有效
| 申请号: | 202010620221.4 | 申请日: | 2020-06-30 |
| 公开(公告)号: | CN111784587B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 刘泽豪;罗天任 | 申请(专利权)人: | 杭州师范大学 |
| 主分类号: | G06T3/60 | 分类号: | G06T3/60;G06T3/00;G06T7/194;G06T7/90;G06T7/64;G06N3/04;G06N3/08;G06F7/78 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 网络 发票 照片 位置 矫正 方法 | ||
本发明提供一种基于深度学习网络的发票照片位置矫正方法,首先训练FCN网络;然后将待矫正的发票输入训练好的FCN网络中,分割出发票的主体部分、发票标题以及无关背景;将输出灰度图按照灰度值差异生成为两张图,一张包含发票的主体部分和背景,一张包含发票标题和背景;再计算发票主体部分的四个角点的像素值;之后确定发票的方向;最后通过透视变换矫正发票的方向。本发明方法解决了由于拍摄环境影响,发票照片呈现歪曲,倾斜等问题,可以更加有效的识别分割出发票的位置,方向。具有更高的算法鲁棒性,大大加强了后续文字识别的准确性。
技术领域
本发明属于图像处理领域,具体涉及一种基于深度学习网络的发票照片位置矫正方法。
背景技术
发票OCR(Optical Character Recognition,光学字符识别) 指的是,将发票照片中特定区域文字和数字用字符识别技术识别为计算机文字的过程。在处理发票OCR的过程中,由于拍摄者习惯,使用设备,拍摄环境,拍摄发票纸张等条件不统一,发票照片呈现歪曲,倾斜,模糊等问题。不利于后续文字识别和处理。并且由于情景多种多样,传统的非深度学习方法很难正确的识别。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种基于深度学习网络的发票照片位置矫正方法。
所述的方法分成三个阶段:发票位置定位阶段首先采用FCN深度学习网络分割出发票主体的位置和标志物位置。目标寻找阶段,通过直线检测和颜色检测的方式找到发票主体位置和发票方向。矫正阶段,通过仿射变换将拍摄歪斜的发票矫正为正向。
本发明采用的技术方案主要包括以下步骤:
步骤一:训练FCN网络;
收集发票并进行标注,标注方式为分割标注,分别标注发票框内的主体部分和发票的标题部分。然后使用FCN网络进行训练,将原图和对应的标注数据放到FCN网络中训练,使FCN网络输出主体部分,发票标题以及无关背景。FCN网络输出大小为448*448的灰度图;输出灰度图之中,标题部分的灰度值为50,主体部分灰度值为100,背景部分灰度值为255。
步骤二:图像分割;
将待矫正的发票输入训练好的FCN网络中,分割出发票的主体部分、发票标题以及无关背景。将输出灰度图按照灰度值差异生成为两张图,一张包含发票的主体部分和背景,一张包含发票标题和背景。
步骤三:计算发票主体部分的四个角点的像素值;
步骤四:确定发票的方向;
遍历包含标题的灰度图,找到发票的标题位置,以发票区域中任意一个点x0作为标题的位置;
根据x0来标注步骤三获得的四个角点。设标题x0所在的位置为发票正相位,以逆时针方向,标记发票的四个角点为别为 p1,p2,p3,p4。
步骤五:通过透视变换矫正发票的方向;
步骤三具体方法如下:
对包含主体部分的灰度图进行处理:
3.1采用opencv中findContours进行轮廓检测,找到图像中可能包含发票主体的部分;
3.2采用opencv中convexHull进行凸包检测;
3.3采用opencv中approxPolyDP找到凸包的顶点;
3.4筛选出有四个顶点的四边形;
3.5计算四边形的面积,其中面积大于阈值的为发票主体部分;
3.6筛选出的四个顶点为所求发票主体的四个角点。
进一步的,步骤三所述的阈值设置为60。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010620221.4/2.html,转载请声明来源钻瓜专利网。





