[发明专利]一种基于边缘注意力引导的越南场景文字检测方法在审

专利信息
申请号: 202210628050.9 申请日: 2022-06-06
公开(公告)号: CN114898372A 公开(公告)日: 2022-08-12
发明(设计)人: 文益民;王利兵 申请(专利权)人: 桂林电子科技大学
主分类号: G06V30/148 分类号: G06V30/148;G06V30/18;G06V30/19;G06V10/82;G06V10/764;G06T5/30;G06N3/04
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 杨雪梅
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 边缘 注意力 引导 越南 场景 文字 检测 方法
【说明书】:

发明涉及文字检测领域,具体涉及一种基于边缘注意力引导的越南场景文字检测方法,包括:使用ResNet提取目标的特征信息,并在ResNet中利用感受野残差块RFRB产生丰富的感受野;使用多路融合特征金字塔网络MF‑FPN对特征信息进行融合,得到目标不同层次的特征信息;将特征信息输入RPN得到一定数量的候选框;将候选框和特征信息经RoI Align后输入分类分支和掩码分支预测目标的类别信息、边界框信息和掩码信息,并在分类分支中使用Re‑Score机制抑制非文字目标以及在分类分支和掩码分支使用边缘注意力机制EAM突出目标的边缘,该方法可有效检测不同尺度的越南场景文字目标,并剔除一些非文字目标。

技术领域

本发明涉及文字检测领域,尤其涉及一种基于边缘注意力引导的越南场景文字检测方法。

背景技术

自然场景文本检测是用于自动检测自然场景图像中的文本目标的一项技术,其广泛应用于自动驾驶、招牌识别、场景理解等。并且,自然场景文本检测也吸引了无数研究者的关注和研究。然而,现有的方法大多是基于英语等这些非声调语言的研究,一些声调语言如越南语的场景文字检测却鲜有研究。

越南语是一种声调语言,其利用重音符号或变音符号表示元音和声调,其中有三个个符号用来添加元音,五个符号表示越南语的声调,而这五个声调符号决定了每个单词的含义。越南语字符独特的构成,使得自然场景中越南文字的检测相对于现有的针对英语为主的检测技术具有以下困难:

1、需要更加丰富和鲁棒的特征信息,以尽可能地检测出越南场景文字目标以及提取到变音符号的特征;

2、变音符号的存在以及背景信息的干扰,使得一些类文字目标更易被误检为文字目标,即会出现一些假阳性目标;

3、自然场景中越南文字的变音符号与拉丁字母相比形状较小,在检测时易被忽略,进而无法完整地表达越南文字目标(变音符号检测不全,文字目标检测不完整),同时一些字符的上部会出现两个变音符号;

4、在自然场景中,越南场景文字目标尺度变化较大。

发明内容

本发明的目的在于提供一种基于边缘注意力引导的越南场景文字检测方法,旨在更精准地检测不同尺度的越南场景文字目标,尤其是变音符号信息,并有效剔除非文字目标。

为实现上述目的,本发明提供了一种基于边缘注意力引导的越南场景文字检测方法,包括:使用ResNet提取目标的特征信息,并在ResNet中利用感受野残差块RFRB产生丰富的感受野,以适应不同尺度的越南场景文字目标;

使用多路融合特征金字塔网络MF-FPN对特征信息进行融合,得到目标不同层次的特征信息,比如:目标空间位置信息、变音符号细节信息等;

将特征信息输入RPN得到一定数量的候选框;

将候选框和特征信息经RoI Align后输入分类分支和掩码分支预测目标的类别信息、边界框信息和掩码信息,并使用Re-Score机制抑制非文字目标,同时利用边缘注意力机制EAM突出目标的边缘。

本发明越南场景文字检测方法中,所述利用感受野残差块RFRB产生丰富感受野的具体方式为:先采用1×1卷积调整特征的通道数;然后将膨胀率分别为1、2、3的3个3×3膨胀卷积的输出特征进行concat融合;再使用1×1的卷积调整通道数进行信息间的交融,进而产生丰富的感受野。

本发明越南场景文字检测方法中,所述多路融合特征金字塔网络MF-FPN是一种用于特征融合的网络,以产生含有不同信息的、不同层次的特征图,所述多路融合特征金字塔网络MF-FPN提取目标不同层次特征信息的具体方式为:将ResNet得到的当前层次的特征输入通道数为256的1×1卷积后得到的输出,由ResNet得到的前一层级的特征进行2×2平均池化得到的输出,对ResNet输出的特征进行自上而下的上采样的输出,三者进行融合后再输入通道数为256的3×3卷积,进而得到不同层次的特征信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210628050.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top