[发明专利]一种实时场景文本检测方法有效
| 申请号: | 202110612702.5 | 申请日: | 2021-06-02 |
| 公开(公告)号: | CN113255646B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 李建武;任建国;周天飞 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实时 场景 文本 检测 方法 | ||
1.一种实时场景文本检测方法,其特征在于,包括以下步骤:
步骤1:提取当前自然场景图像的特征;
提取图像不同深度的特征F2∈RC1×H1×W1、F3∈RC2×H2×W2、F4∈RC3×H3×W3、F5∈RC4×H4×W4,其中,C1、C2、C3、C4分别表示每个特征的通道数,H1、H2、H3、H4分别表示每个特征的高度,W1、W2、W3、W4分别表示每个特征的宽度;F2表示网络获取的最浅层特征,F3表示网络获取的次浅层特征,F4表示网络获取的次深层特征,F5表示网络获取的最深层特征;R代表实数集;
其中,F2到F5分别对应模型不同深度对应的特征,从F2至F5,特征依次加深;
步骤2:采用交叉池化注意力方式,对深层特征的权重进行重新分配;
步骤2.1:对深层特征F5进行卷积操作,在通道上进行压缩,得到单通道特征图Fc∈R1×H4×W4;
步骤2.2:对单通道特征图Fc,分别在H轴与W轴方向进行自适应平均池化,得到两个轴线上的特征Px∈R1×H4×1与Py∈R1×1×W4,其中,特征Px感受到当前行上所有的特征,特征Py感受当前列上所有的特征;
步骤2.3:对特征Px和特征Py采用矩阵乘法计算,使用Sigmoid激活函数对计算结果进行处理,得到注意力矩阵AT,并将AT采用跳跃连接的方式对原始特征进行加权;
设获取的特征为Fs∈RC4×H4×W4,其计算方式如下:
Fs=σ(AvgPoolh(Conv(F5))*AvgPoolw(Conv(F5)))·F5+F5 (1)
其中,σ(·)表示Sigmoid激活函数,AvgPoolh(·)表示在H轴方向上进行自适应池化操作,AvgPoolw(·)表示在W方向上进行自适应池化操作,Conv(·)表示卷积操作;*表示矩阵相乘操作,·表示矩阵点乘操作,+表示矩阵加法操作;其中,矩阵点乘操作表示对原始特征进行加权,矩阵加法操作表示跳跃连接;
步骤3:对不同尺度的特征,自下而上进行融合,得到特征F;
步骤4:将不同尺度特征进行合并;
步骤5:将步骤4获取的特征进行分块处理,然后送入Transformer编码器,获取特征的长距离依赖,用于处理文本多样性的问题,包括以下步骤:
首先,对特征F进行分块,得到块状特征xi,j表示第i行、第j个特征块,M2表示每个特征块的长宽均为M,
然后,使用大小为M×M的卷积核进行下采样,得到x′i,j∈RC4×1;
之后,将所有处理后的特征块进行拼接,并送入Transformer编码器中进行处理,得到输出特征
最后,对输出特征Ft进行上采样,并与初始特征F进行结合,得到最终特征Fl∈RC4×H1×W1;
步骤6:分割出文本实例的“核”;
对步骤5获取的最终特征Fl使用卷积操作进行分割,得到所有文本“核”的前景概率图;然后,使用0.3作为阈值,将其转换为二值图B∈R1×H1×W1,二值图B中的每一个联通区域对应一个文本实例的“核”;
步骤7:从文本“核”中构建文本实例;
对步骤6得到的每一个文本“核”,对其进行扩张,得到完整的文本实例。
2.如权利要求1所述的一种实时场景文本检测方法,其特征在于:
步骤3的实现方法如下:
将特征FS、F4、F3、F2,采用FPN方式进行自下而上的融合;
设融合后的特征为P5∈R64×H4×W4、P4∈R64×H3×W3、P3∈R64×H2×W2与P2∈R64×H1×W1,计算方式如下:
P5=reduceconv5(FS) (2)
P4=conv4(cat(up2(P5),reduceconv4(F4))) (3)
P3=conv3(cat(up2(P4),reduceconv3(F3))) (4)
P2=conv2(cat(up2(P3),reduceconv2(F2))) (5)
其中,reduceconv5(·)、reduceconv4(·)、reduceconv3(·)和reduceconv2(·)分别表示对特征FS、F4、F3与F2进行通道压缩的卷积操作,压缩后的通道特征均为64;up2(·)表示两倍上采样操作;cat(·)表示两个特征通道组合的操作;conv4(·)、conv3(·)与conv2(·)分别表示对组合后的特征进行卷积的操作,其输入特征通道数为128,输出特征通道数为64;
步骤4的实现方法如下:
对步骤3中得到的P5、P4、P3、P2这四个不同尺度的特征进行合并,得到特征F∈RC4×H1×W1,其计算公式为:
F=conv(cat(P2,up2(P3),up4(P4),up8(P5))) (6)
其中,conv(·)表示卷积运算,cat(·)表示将四个特征在通道上进行合并,up2(·)表示两倍上采样操作,up4(·)表示四倍上采样操作,up8(·)表示八倍上采样操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110612702.5/1.html,转载请声明来源钻瓜专利网。





