[发明专利]基于深度金字塔注意力和特征融合的自然场景文本检测方法在审
| 申请号: | 201911192949.5 | 申请日: | 2019-11-28 |
| 公开(公告)号: | CN111062386A | 公开(公告)日: | 2020-04-24 |
| 发明(设计)人: | 贾世杰;冯宇静 | 申请(专利权)人: | 大连交通大学 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
| 地址: | 116028 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 金字塔 注意力 特征 融合 自然 场景 文本 检测 方法 | ||
本发明提供了一种基于深度金字塔注意力和特征融合的自然场景文本检测方法,该方法是把深度金字塔注意力网络和特征融合结合的自然场景文本检测算法,去解决原本设计良好的模型不能被充分利用,限制了整体性能以及卷积运算基于局部感受野,导致长依赖会随着卷积加深而消失这两个问题。利用特征融合和深度金字塔注意力模型更好的提升了模型的利用率,弥补了现在很多文字检测模型设计结构良好但是不能被充分利用以及卷积运算基于局部感受野,长依赖会随着卷积加深而消失。
技术领域
本发明涉及的是一种自然场景文本检测方法,具体是一种把深度金字塔注意力网络、特征融合技术组合的自然场景文本检测算法。
背景技术
随着科学技术的进步,互联网产品需求量不断增大,越来越多的方面需要用到图像中的文本信息。想要更加完整的识别图像中文字的内容,文字检测是第一步,也是极其重要的一步,直接影响文字识别的性能。
基于自然场景下的的文本检测,需要克服背景干扰、文字宽高比多变、文字方向多变和小文本对文本检测带来的检测复杂性,目前是计算机视觉领域最具挑战的课题之一。自然场景文本检测从提取特征方式的不同可以分为传统的自然场景文字检测以及基于深度学习的自然场景下文字检测。场景图片不同于文档图片,它包含复杂的背景以及文字角度的变化,单单使用传统的自然场景文字检测方法很难把文字都从背景中区别开来。目前深度学习的自然场景下文字检测主要可以分为两类:基于区域建议的文本检测方法和基于图像分割的文本检测方法。经过对这两种方法的分析,发现大多数模型缺少特征级的平衡化,导致原本设计良好的模型不能被充分利用,限制了整体性能。
为了更好地充分利用模型,本发明提出一种新的网络,它弥补了原本设计良好的模型不能被充分利用,限制了整体性能的缺陷,对以及避免了卷积运算基于局部感受野,长依赖会随着卷积加深而消失的问题。
发明内容
本发明是提供了一种把深度金字塔注意力网络和特征融合结合的自然场景文本检测算法,去解决原本设计良好的模型不能被充分利用,限制了整体性能的问题。
本发明的技术方案:
一种基于深度金字塔注意力和特征融合的自然场景文本检测方法,步骤如下:
步骤一、取关于自然场景文本公共数据集作为训练样本;
步骤二、把训练样本按每批次进8张图片输入到初步提取特征网络(PixelLink的提取特征网络),其中基础框架是VGG16网络,采用的是Unet结构;自上而下路径采用的是VGG16网络,它是由多个3*3卷积串联和最大池化构成的深层次网络。使用多个卷积串联的优点是:比只使用一个较大的卷积核,需要的参数量更少以及具有更多的非线性变化。
自下而上路径,即上采样阶段。其中上采样用的是双线性插值法。
为了防止VGG16输出的特征映射直接进行上采样,从而丢失上下文信息,因此采用横向连接。它将自上而下路径与自下而上路径空间大小相同的特征图进行特征融合,从而补全丢失的信息,使上采样后的特征表示能力更强。
步骤三、PixelLink提取特征网络得到的4个特征映射层:h4、h3、h2和h1,4个特征映射层都上采样至h4,进行像素值的平均求和,通道数大小不变,称为特征融合;其中上采样用的是双线性插值法;特征融合的公式为:
F=(h4+Up×2(h3)+Up×4(h2)+Up×4(h1))/4 (1)
其中Up×2(·)和Up×4(·),分别表示的是扩大2倍、4倍;
步骤四、把特征融合的输出作为深度金字塔注意力模型的输入,进一步增加深度金字塔注意力模型,更加充分利用增加深度金字塔注意力模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连交通大学,未经大连交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911192949.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电磁干扰诊断方法和装置
- 下一篇:一种可视化编辑小提琴图的生成方法及系统





