[发明专利]一种实时场景文本检测方法有效

专利信息
申请号: 202110612702.5 申请日: 2021-06-02
公开(公告)号: CN113255646B 公开(公告)日: 2022-10-18
发明(设计)人: 李建武;任建国;周天飞 申请(专利权)人: 北京理工大学
主分类号: G06V30/148 分类号: G06V30/148;G06V30/19;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王松
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实时 场景 文本 检测 方法
【权利要求书】:

1.一种实时场景文本检测方法,其特征在于,包括以下步骤:

步骤1:提取当前自然场景图像的特征;

提取图像不同深度的特征F2∈RC1×H1×W1、F3∈RC2×H2×W2、F4∈RC3×H3×W3、F5∈RC4×H4×W4,其中,C1、C2、C3、C4分别表示每个特征的通道数,H1、H2、H3、H4分别表示每个特征的高度,W1、W2、W3、W4分别表示每个特征的宽度;F2表示网络获取的最浅层特征,F3表示网络获取的次浅层特征,F4表示网络获取的次深层特征,F5表示网络获取的最深层特征;R代表实数集;

其中,F2到F5分别对应模型不同深度对应的特征,从F2至F5,特征依次加深;

步骤2:采用交叉池化注意力方式,对深层特征的权重进行重新分配;

步骤2.1:对深层特征F5进行卷积操作,在通道上进行压缩,得到单通道特征图Fc∈R1×H4×W4

步骤2.2:对单通道特征图Fc,分别在H轴与W轴方向进行自适应平均池化,得到两个轴线上的特征Px∈R1×H4×1与Py∈R1×1×W4,其中,特征Px感受到当前行上所有的特征,特征Py感受当前列上所有的特征;

步骤2.3:对特征Px和特征Py采用矩阵乘法计算,使用Sigmoid激活函数对计算结果进行处理,得到注意力矩阵AT,并将AT采用跳跃连接的方式对原始特征进行加权;

设获取的特征为Fs∈RC4×H4×W4,其计算方式如下:

Fs=σ(AvgPoolh(Conv(F5))*AvgPoolw(Conv(F5)))·F5+F5 (1)

其中,σ(·)表示Sigmoid激活函数,AvgPoolh(·)表示在H轴方向上进行自适应池化操作,AvgPoolw(·)表示在W方向上进行自适应池化操作,Conv(·)表示卷积操作;*表示矩阵相乘操作,·表示矩阵点乘操作,+表示矩阵加法操作;其中,矩阵点乘操作表示对原始特征进行加权,矩阵加法操作表示跳跃连接;

步骤3:对不同尺度的特征,自下而上进行融合,得到特征F;

步骤4:将不同尺度特征进行合并;

步骤5:将步骤4获取的特征进行分块处理,然后送入Transformer编码器,获取特征的长距离依赖,用于处理文本多样性的问题,包括以下步骤:

首先,对特征F进行分块,得到块状特征xi,j表示第i行、第j个特征块,M2表示每个特征块的长宽均为M,

然后,使用大小为M×M的卷积核进行下采样,得到x′i,j∈RC4×1

之后,将所有处理后的特征块进行拼接,并送入Transformer编码器中进行处理,得到输出特征

最后,对输出特征Ft进行上采样,并与初始特征F进行结合,得到最终特征Fl∈RC4×H1×W1

步骤6:分割出文本实例的“核”;

对步骤5获取的最终特征Fl使用卷积操作进行分割,得到所有文本“核”的前景概率图;然后,使用0.3作为阈值,将其转换为二值图B∈R1×H1×W1,二值图B中的每一个联通区域对应一个文本实例的“核”;

步骤7:从文本“核”中构建文本实例;

对步骤6得到的每一个文本“核”,对其进行扩张,得到完整的文本实例。

2.如权利要求1所述的一种实时场景文本检测方法,其特征在于:

步骤3的实现方法如下:

将特征FS、F4、F3、F2,采用FPN方式进行自下而上的融合;

设融合后的特征为P5∈R64×H4×W4、P4∈R64×H3×W3、P3∈R64×H2×W2与P2∈R64×H1×W1,计算方式如下:

P5=reduceconv5(FS) (2)

P4=conv4(cat(up2(P5),reduceconv4(F4))) (3)

P3=conv3(cat(up2(P4),reduceconv3(F3))) (4)

P2=conv2(cat(up2(P3),reduceconv2(F2))) (5)

其中,reduceconv5(·)、reduceconv4(·)、reduceconv3(·)和reduceconv2(·)分别表示对特征FS、F4、F3与F2进行通道压缩的卷积操作,压缩后的通道特征均为64;up2(·)表示两倍上采样操作;cat(·)表示两个特征通道组合的操作;conv4(·)、conv3(·)与conv2(·)分别表示对组合后的特征进行卷积的操作,其输入特征通道数为128,输出特征通道数为64;

步骤4的实现方法如下:

对步骤3中得到的P5、P4、P3、P2这四个不同尺度的特征进行合并,得到特征F∈RC4×H1×W1,其计算公式为:

F=conv(cat(P2,up2(P3),up4(P4),up8(P5))) (6)

其中,conv(·)表示卷积运算,cat(·)表示将四个特征在通道上进行合并,up2(·)表示两倍上采样操作,up4(·)表示四倍上采样操作,up8(·)表示八倍上采样操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110612702.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top