[发明专利]一种基于深度学习的金融行业图像中的文字区域检测定位的方法在审
| 申请号: | 201811257204.8 | 申请日: | 2018-10-26 |
| 公开(公告)号: | CN109492630A | 公开(公告)日: | 2019-03-19 |
| 发明(设计)人: | 桂晓雷;林路;王慜骊;安通鉴;林康;陈立强 | 申请(专利权)人: | 信雅达系统工程股份有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 贾玉霞;邱启旺 |
| 地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于深度学习的金融行业图像中的文字区域检测定位的方法,包括如下步骤:选取金融行业常用的汉字、词组和组合词,加上一些处理,形成变换后的数据集;生成文本区域候选框,计算每一个候选文本区域的得分;并入文本类别监督信息,融入多层次的区域下采样信息并将文本特征输入到LSTM网络模型中形成一种端到端的候选文本区域生成网络;最后再对所述的候选文本区域位置进行修正,使用候选框过滤多余的候选区域。这种发明可以实现对任意角度文本快速的检测。 | ||
| 搜索关键词: | 候选文本 金融行业 文字区域检测 候选框 图像 候选区域 区域生成 区域位置 网络模型 文本类别 文本区域 文本特征 词组 数据集 下采样 组合词 过滤 汉字 文本 修正 学习 检测 融入 网络 监督 | ||
【主权项】:
1.一种基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于,该方法包括如下步骤:S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;S3:生成文本区域候选框,以缩放处理后的图像作为inception‑RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception‑RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域。S4:并入文本类别监督信息,融入多层次的区域下采样信息;S5:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;S6:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;S7:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信雅达系统工程股份有限公司,未经信雅达系统工程股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811257204.8/,转载请声明来源钻瓜专利网。





