[发明专利]基于CRAFT和SCRN-SEED框架的自然场景文字检测识别方法在审
申请号: | 202111530794.9 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114255464A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 叶堂华;孙乐;朱均可;刘凯 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/148;G06K9/62;G06N3/04;G06N3/08;G06V20/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
地址: | 224002 江苏省盐城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 craft scrn seed 框架 自然 场景 文字 检测 识别 方法 | ||
1.基于CRAFT和SCRN-SEED框架的自然场景文字检测识别方法,其特征在于,包括如下步骤:
(1)利用真实数据集和合成数据集建立图像数据集,将图像数据集分为训练集和测试集;
(2)利用图像数据集训练CRAFT网络:
(201)将CRAFT网络进行改进,以ResNet50网络作为主干网络,将合成数据集中的图片输入到改进后的CRAFT网络进行特征提取,输出区域得分和亲和度得分;
(202)根据两项得分通过高斯热力映射进行编码,生成高斯热力图;
(203)根据分水岭算法将输入图片中完整文本切割成单个字符,通过后处理操作将字符生成任意形状文本的多边形;
(203)应用迁移学习的思想,利用预训练模型初始化改进后的CRAFT网络;
(3)利用真实数据集训练不规则文本纠正网络SCRN;
(4)将SCRN与SEED网络结合,训练结合后的SCRN-SEED网络;
(5)将改进后的CRAFT网络与SCRN-SEED网络连接,构建完整的模型并进行训练。
2.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述应用迁移学习的思想,利用预训练模型初始化改进后的CRAFT网络的步骤包括:
首先,使用合成数据集训练CRAFT网络,使用Adam优化器优化网络,再利用多个真实数据集微调网络,在微调期间,以1:5的比率使用SynthText数据集,以1:3的比例使用在线难例挖掘;
然后,使用含有四边形标注的真实数据集和SynthText数据集训练CRAFT网络,将其中一部分划分为测试集对网络参数进行调整。
3.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述将SCRN与SEED网络结合,训练结合后的SCRN-SEED网络的步骤包括:
用训练后的SCRN网络代替SEED网络中的图像纠正模块,利用语义模型FastText的预训练语言模型初始化预训练模型的参数,利用测试集初步训练改进后的SCRN-SEED网络,根据训练效果调整网络参数。
4.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述将改进后的CRAFT网络与SCRN-SEED网络连接,构建完整的模型并对其进行训练的步骤包括:将任意形状文本的多边形生成包含所有字符的最小矩形框,将矩形框裁剪出来,调整裁剪后图片格式,然后输入到SCRN-SEED网络完成模型的构建,利用验证集对模型进行训练,将训练效果最优的参数保留,输入自然场景下的图片到模型中,进行自动文字检测与识别任务。
5.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述真实数据集来自ICDAR2013、ICDAR2015、ICDAR2017、MSRA-TD500、TotalText、CTW-1500数据库,所述合成数据集为SynthText数据集;
调整图像数据集中每个图片的大小,将数据集中的图片格式转换mdb格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111530794.9/1.html,转载请声明来源钻瓜专利网。