[发明专利]一种基于深度学习的金融行业图像中的文字区域检测定位的方法在审
| 申请号: | 201811257204.8 | 申请日: | 2018-10-26 |
| 公开(公告)号: | CN109492630A | 公开(公告)日: | 2019-03-19 |
| 发明(设计)人: | 桂晓雷;林路;王慜骊;安通鉴;林康;陈立强 | 申请(专利权)人: | 信雅达系统工程股份有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 贾玉霞;邱启旺 |
| 地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 候选文本 金融行业 文字区域检测 候选框 图像 候选区域 区域生成 区域位置 网络模型 文本类别 文本区域 文本特征 词组 数据集 下采样 组合词 过滤 汉字 文本 修正 学习 检测 融入 网络 监督 | ||
本发明公开了一种基于深度学习的金融行业图像中的文字区域检测定位的方法,包括如下步骤:选取金融行业常用的汉字、词组和组合词,加上一些处理,形成变换后的数据集;生成文本区域候选框,计算每一个候选文本区域的得分;并入文本类别监督信息,融入多层次的区域下采样信息并将文本特征输入到LSTM网络模型中形成一种端到端的候选文本区域生成网络;最后再对所述的候选文本区域位置进行修正,使用候选框过滤多余的候选区域。这种发明可以实现对任意角度文本快速的检测。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的金融行业图像中的文字区域检测定位的方法。
背景技术
基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来,并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。
相关技术中,OCR文字识别方法分为文字行分割、单字分割、单字识别、语言模型解码等流程,对一张图像进行行分割之后,进行单个字的分割,然后对分割得到的单个字同时进行单字识别,最后进行语言模型解码。然而相关技术中,现有的OCR文字识别方法中对单个字的切割,然后分别对每一个字同时进行识别,一旦单字切割出现切割错误,则单字识别就错了,并且也影响到了其他的单个字的识别。从而,现有技术OCR单字分割定位然后再对文字进行识别的方法,并不准确,容易出现错误,识别率较低。
发明内容
本发明针对现有技术的不足,提供一种基于深度学习的金融行业图像中的文字区域检测定位的方法,可以准确识别金融领域文字区域的文本行,提高文本行识别的鲁棒性。具体技术方案如下:
一种基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于,该方法包括如下步骤:
S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;
S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;
S3:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域;
S4:并入文本类别监督信息,融入多层次的区域下采样信息;
S5:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;
S6:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
S7:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
进一步地,所述的S3中所述的文本特征先验框共24种,其中每个滑动位置的滑动窗口宽度设为32、48、64和80,长宽比例为0.2、0.5、0.8、1.0、1.2和1.5;所述的inception网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信雅达系统工程股份有限公司,未经信雅达系统工程股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811257204.8/2.html,转载请声明来源钻瓜专利网。





