[发明专利]一种实时场景文本检测方法有效

申请号：	202110612702.5	申请日：	2021-06-02
公开（公告）号：	CN113255646B	公开（公告）日：	2022-10-18
发明（设计）人：	李建武;任建国;周天飞	申请（专利权）人：	北京理工大学
主分类号：	G06V30/148	分类号：	G06V30/148;G06V30/19;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京正阳理工知识产权代理事务所(普通合伙) 11639	代理人：	王松
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实时场景文本检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实时场景文本检测方法，其特征在于，包括以下步骤：

步骤1：提取当前自然场景图像的特征；

提取图像不同深度的特征F₂∈R^C1×H1×W1、F₃∈R^C2×H2×W2、F₄∈R^C3×H3×W3、F₅∈R^C4×H4×W4，其中，C1、C2、C3、C4分别表示每个特征的通道数，H1、H2、H3、H4分别表示每个特征的高度，W1、W2、W3、W4分别表示每个特征的宽度；F₂表示网络获取的最浅层特征，F₃表示网络获取的次浅层特征，F₄表示网络获取的次深层特征，F₅表示网络获取的最深层特征；R代表实数集；

其中，F₂到F₅分别对应模型不同深度对应的特征，从F₂至F₅，特征依次加深；

步骤2：采用交叉池化注意力方式，对深层特征的权重进行重新分配；

步骤2.1：对深层特征F₅进行卷积操作，在通道上进行压缩，得到单通道特征图F_c∈R¹^×H4×W4；

步骤2.2：对单通道特征图F_c，分别在H轴与W轴方向进行自适应平均池化，得到两个轴线上的特征P_x∈R^1×H4×1与P_y∈R^1×1×W4，其中，特征P_x感受到当前行上所有的特征，特征P_y感受当前列上所有的特征；

步骤2.3：对特征P_x和特征P_y采用矩阵乘法计算，使用Sigmoid激活函数对计算结果进行处理，得到注意力矩阵AT，并将AT采用跳跃连接的方式对原始特征进行加权；

设获取的特征为F_s∈R^C4×H4×W4，其计算方式如下：

F_s＝σ(AvgPool_h(Conv(F₅))*AvgPool_w(Conv(F₅)))·F₅+F₅ (1)

其中，σ(·)表示Sigmoid激活函数，AvgPool_h(·)表示在H轴方向上进行自适应池化操作，AvgPool_w(·)表示在W方向上进行自适应池化操作，Conv(·)表示卷积操作；*表示矩阵相乘操作，·表示矩阵点乘操作，+表示矩阵加法操作；其中，矩阵点乘操作表示对原始特征进行加权，矩阵加法操作表示跳跃连接；

步骤3：对不同尺度的特征，自下而上进行融合，得到特征F；

步骤4：将不同尺度特征进行合并；

步骤5：将步骤4获取的特征进行分块处理，然后送入Transformer编码器，获取特征的长距离依赖，用于处理文本多样性的问题，包括以下步骤：

首先，对特征F进行分块，得到块状特征x_i,j表示第i行、第j个特征块，M²表示每个特征块的长宽均为M，

然后，使用大小为M×M的卷积核进行下采样，得到x′_i,j∈R^C4×1；

之后，将所有处理后的特征块进行拼接，并送入Transformer编码器中进行处理，得到输出特征

最后，对输出特征F_t进行上采样，并与初始特征F进行结合，得到最终特征F_l∈R^C4×H1×W1；

步骤6：分割出文本实例的“核”；

对步骤5获取的最终特征F_l使用卷积操作进行分割，得到所有文本“核”的前景概率图；然后，使用0.3作为阈值，将其转换为二值图B∈R^1×H1×W1，二值图B中的每一个联通区域对应一个文本实例的“核”；

步骤7：从文本“核”中构建文本实例；

对步骤6得到的每一个文本“核”，对其进行扩张，得到完整的文本实例。

2.如权利要求1所述的一种实时场景文本检测方法，其特征在于：

步骤3的实现方法如下：

将特征F_S、F₄、F₃、F₂，采用FPN方式进行自下而上的融合；

设融合后的特征为P₅∈R^64×H4×W4、P₄∈R^64×H3×W3、P₃∈R^64×H2×W2与P₂∈R^64×H1×W1，计算方式如下：

P₅＝reduceconv5(F_S) (2)

P₄＝conv4(cat(up₂(P₅),reduceconv4(F₄))) (3)

P₃＝conv3(cat(up₂(P₄),reduceconv3(F₃))) (4)

P₂＝conv2(cat(up₂(P₃),reduceconv2(F₂))) (5)

其中，reduceconv5(·)、reduceconv4(·)、reduceconv3(·)和reduceconv2(·)分别表示对特征F_S、F₄、F₃与F₂进行通道压缩的卷积操作，压缩后的通道特征均为64；up₂(·)表示两倍上采样操作；cat(·)表示两个特征通道组合的操作；conv4(·)、conv3(·)与conv2(·)分别表示对组合后的特征进行卷积的操作，其输入特征通道数为128，输出特征通道数为64；

步骤4的实现方法如下：

对步骤3中得到的P₅、P₄、P₃、P₂这四个不同尺度的特征进行合并，得到特征F∈R^C4×H1×W1，其计算公式为：

F＝conv(cat(P₂,up₂(P₃),up₄(P₄),up₈(P₅))) (6)

其中，conv(·)表示卷积运算，cat(·)表示将四个特征在通道上进行合并，up₂(·)表示两倍上采样操作，up₄(·)表示四倍上采样操作，up₈(·)表示八倍上采样操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110612702.5/1.html，转载请声明来源钻瓜专利网。

上一篇：加热炉调节方法和装置、电子设备及存储介质
下一篇：一种土样饱和装置及其使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种实时场景文本检测方法有效

专利文献下载