[发明专利]文字检测方法、系统、设备及存储介质有效
| 申请号: | 202010846565.7 | 申请日: | 2020-08-20 |
| 公开(公告)号: | CN111914843B | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 张勇东;行梦婷;谢洪涛 | 申请(专利权)人: | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06T7/11;G06T7/12 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 薛福玲 |
| 地址: | 230000 安徽省合肥市望江西路5089号*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文字 检测 方法 系统 设备 存储 介质 | ||
本发明公开了文字检测方法、系统、设备及存储介质,该方法包括采用残差网络进行特征提取得到特征图像;对特征图像进行上下文注意力处理,生成语义增强特征图;对语义增强特征图采用金字塔网络进行处理,生成共享特征图;对共享特征图采用区域提案网络进行处理,获得预测建议框;基于预测建议框,采用边界分割分支获得候选边界点;采用与边界分割分支并行的像素级嵌入分支对候选边界点进行过滤,得到最终边界点,以定位文本区域。解决了现有技术中文本检测方法仅在二维空间对于文本区域的特征进行表达,无法很好地消除文本区域背景噪声的问题,不仅能够对任意形状文本进行检测,还可以抑制背景似文本纹理噪声以实现更精确的任意形状场景文本定位。
技术领域
本发明涉及文本检测技术领域,尤其涉及一种文字检测方法、系统、设备及存储介质。
背景技术
场景文本检测技术旨在定位场景图像中的文本区域,其在自动驾驶,商标识别,盲人导向等计算机视觉任务中发挥着重要的作用。
近年来,基于边界点的文本表示方式较为流行,主要因为边界点可以更灵活地贴合曲形文本的形状,曲形文本的检测任务十分受用。然而,背景中与文本纹理相似的区域很容易被模型误判为文本区域,所以直接将边界点的分割或回归结果用于后续文本定位是不准确的。目前的文本检测方法仅在二维空间对于文本区域的特征表达,由于二维空间的限制,一些背景噪声无法很好地消除,使得于文本区域表达不准确。
发明内容
本申请实施例通过提供一种文字检测方法、系统、设备及存储介质,旨在解决现有技术中文本检测方法仅在二维空间对于文本区域的特征进行表达,无法很好地消除文本区域背景噪声的问题。
本申请实施例提供了一种文字检测方法,该方法包括:
采用残差网络进行特征提取得到特征图像;
对所述特征图像进行上下文注意力处理,生成语义增强特征图;
对所述语义增强特征图采用金字塔网络进行处理,生成共享特征图;
对所述共享特征图采用区域提案网络进行处理,获得预测建议框;
基于所述预测建议框,采用边界分割分支获得候选边界点;
采用与所述边界分割分支并行的像素级嵌入分支对所述候选边界点进行过滤,得到最终边界点,以定位文本区域。
优选的,所述采用残差网络进行特征提取得到特征图像的步骤,包括:
获取文本图像;
对所述文本图像进行卷积运算,生成所述特征图像。
优选的,所述对所述特征图像进行上下文注意力处理,生成语义增强特征图的步骤,包括:
采用1×1的卷积核对所述特征图像进行线性映射,得到第一预处理特征图;
计算所述第一预处理特征图的自相关性,并根据所述自相关性,对所述第一预处理特征图与所述特征图像做残差运算,得到第一分支输出;
对所述特征图像进行1×1卷积,得到第二预处理特征图;
采用归一层对所述第二预处理特征图与所述特征图做残差运算,得到第二分支输出;
分别对所述第一分支输出和所述第二分支输出进行3×3卷积,将所述第一分支输出的卷积结果和所述第二分支输出的卷积结果进行相加,得到卷积和,并对所述卷积和进行串联以及1×1卷积,得到所述语义增强特征图。
优选的,所述对所述语义增强特征图采用金字塔网络进行处理,生成共享特征图的步骤,包括:
对所述语义增强特征图和所述特征图像进行高低层级语义特征融合,生成所述共享特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室),未经合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010846565.7/2.html,转载请声明来源钻瓜专利网。





