[发明专利]一种社交网络中的自然场景图像文本检测方法有效

申请号：	202110279656.1	申请日：	2021-03-16
公开（公告）号：	CN112926569B	公开（公告）日：	2022-10-18
发明（设计）人：	王国胤;陈卓;刘群	申请（专利权）人：	重庆邮电大学
主分类号：	G06V10/22	分类号：	G06V10/22;G06V10/80
代理公司：	重庆辉腾律师事务所 50215	代理人：	卢胜斌
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种社交网络中的自然场景图像文本检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种社交网络中的自然场景图像文本检测方法，其特征在于，包括：实时获取社交网络中待检测的自然场景图像数据；对获取的数据进行预处理；将预处理后的数据输入到训练好的多粒度特征融合模型中，得到数据检测结果；

训练多粒度特征融合模型的过程包括：

S1：采集社交网络中的自然场景图像数据集，对图像中的文本信息进行标注；

S2：将获取的数据集划分为训练集和测试集，对训练集中的数据进行预处理；

S3：将预处理后的数据输入到多粒度特征融合模型中进行训练；

S4：将测试集中的数据输入到训练后的多粒度特征融合模型中，得到测试集中输入数据的图像文本预测结果和文本几何图矩阵；

S5：根据可视化文本框计算模型的损失函数；当损失函数最小时，完成模型的训练；

S6：将测试集中的数据输入到模型中，输出文本特征向量，对输出的文本特征向量进行消除冗余计算，在检测图像上生成可视化文本框。

2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，对数据集中的数据进行划分的过程包括：采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集，其他数据作为验证集；对于训练集中的数据，根据图像标注信息对标注的文本框加入0、1标签，其中人眼难以识别的包含模糊、细小文本的标注框信息标为0，清晰可见具有语义的文本标注框信息标为1。

3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括：

S31：提取输入图像的四个粒度信息，将大小为输入图像的1/4的特征向量设置为粒度1，大小为输入图像的1/8的特征向量设置为粒度2，将大小为输入图像的1/16的特征向量设置为粒度3，将大小为输入图像的1/32的特征向量设置为粒度4；

S32：采用ReLU激活函数对提取的四个粒度信息进行激活；

S33：将激活后的四个粒度信息进行特征融合；其中粒度1和粒度2融合，粒度2和粒度3融合，粒度3和粒度4融合，生成三个多粒度特征图；

S34：将三个多粒度特征向量进行融合得到最终的预测特征。

4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，在进行多粒度融合过程中，采用通道注意力机制对残差通道注意力网络进行改进；多粒度融合的表达式为：

h^m＝concat(Unpool(f_m-1),f_m)

其中，m∈{2,3,4}，concat(·)表示向量的拼接操作，Unpool(·)表示双线性插值计算；

采用通道注意力机制对残差通道注意力网络进行改进的公式为：

CAⁱ＝σ(Wⁱhⁱ+bⁱ)

其中，i，j∈{1,2,3}，h^·代表进行粒度融合后的特征向量，Wⁱ代表可学习的参数，σ(·)代表sigmoid激活函数，CAⁱ和RCA^j分别代表生成的通道注意力权重值和残差通道注意力权重值。

5.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，得到最终的预测特征的表达式为：