[发明专利]一种基于焦点损失函数的自然场景下文字检测定位方法和装置有效

专利信息
申请号: 201810729838.2 申请日: 2018-07-05
公开(公告)号: CN109117836B 公开(公告)日: 2022-05-24
发明(设计)人: 操晓春;田晓玮;伍蹈;代朋纹 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06V10/25 分类号: G06V10/25
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 焦点 损失 函数 自然 场景 文字 检测 定位 方法 装置
【说明书】:

发明公开一种基于焦点损失函数的自然场景下文字检测定位方法和装置。该方法首先对标注的数据进行预处理,然后构造文本检测定位网络,然后引用聚焦损失函数作为训练过程损失函数的一部分,然后对待检测的自然场景图片进行检测。该方法通过调整现有标注使标注更加适合所设计的文字检测网络;基于FCN网络将多卷积层进行合并,使之更加符合文字检测任务;通过引入聚焦损失函数在训练过程中平衡正负样本,提高检测精度。本发明能够在文字检测定位上取得高精度高召回的效果。

技术领域

本发明属于计算机视觉技术领域,具体涉及一种能够在自然场景图片中准确定位文字区域的方法和装置。

背景技术

人类传播信息的方法多种多样,文字作为信息传播的载体,其本身直接蕴含着丰富的语义信息。在自然场景中,文字无处不在。不论是店铺招牌,还是交通指示牌,甚至街边广告、海报等,都使用文字来传达信息。准确的从自然场景中定位出文字区域并加以识别,可以帮助机器更好地理解场景语义内容,对很多领域都有着辅助性的帮助作用。例如,在街景识别领域,识别出建筑牌匾上的文字有利于我们更好地理解街景信息;在辅助驾驶领域,识别出交通标识牌上的文字有利于我们更好地辅助自动驾驶。在人工智能高速发展的今天,自然场景文字识别已经成为计算机视觉的重要组成部分。在自然场景图像中的文字识别主要分为两个任务,一是文字检测,即在图像中定位出文字所在区域;二是文字识别,即从定位的区域中提取出文字的内容。由于文字笔画丰富,细节敏感,只有准确的定位出文字区域才能做后续识别工作,故文字检测在整个识别任务中占有重要地位。

自然场景下的文字检测与传统的文字检测技术有很大的不同,主要体现在以下几个方面。一是处理的对象不同。传统文字检测主要处理的是文档图像,一般是扫描文档,格式为PDF等。自然场景下的文字检测主要处理的是街景图片,一般是照片影像,格式为JPG等。二是文字区域与背景区域情况不同。传统文字检测处理对象中的文字区域占据画面主要位置,文字规整,背景多为纯色,没有其他干扰。自然场景文字检测处理对象中的文字区域布局不规则,文字大小不一,颜色各异,背景复杂,充满着各种对于文字检测的干扰信息,如,栏杆,电线,遮挡物等。三是处理对象的画面质量不同。传统文字检测处理对象画质较好,图像清晰。自然场景文字检测处理对象由于拍摄角度、抖动或是光照情况等原因,图像可能存在噪点多,模糊等情况。可以看出,自然场景中的文字检测要比传统文字检测更加复杂,处理对象更加困难。因此,自然场景中的文字检测一直以来都是计算机视觉领域中一个极具挑战的任务。

目前,自然场景下的文字检测方法一共有三类,分别是基于连通组件、基于纹理特征和基于二者混合的方法。基于连通组件的方法主要是利用文字位置相邻像素之间的相关性来检测文字区域。对于自然场景的文字,反映在灰度图像中的文字的灰度值近似,此外,文字颜色、笔画宽度等也有一定的相关性。主要的方法有:最大稳定极值区域(MSER),颜色聚类方法(Color Clustering)、笔画宽度变换(SWT)和梯度方向直方图(HOG)等方法。基于纹理特征的方法主要是利用文字和背景纹理特征的不同性来检测文字区域。对于自然场景的文字,文字区域往往有独特的纹理特征,可以将此类特征作为输入,传入训练好的分类器,将文字从背景中提取出来。基于二者混合的方法结合了以上提到的相关性和不同性来检测文字区域。主要分为两个步骤,先通过相关性来得到文字候选区域,再对这些候选区域进行纹理特征检测,精确定位出文字区域。

近几年来,深度学习高速发展,利用深度学习的方法来获取文字的纹理特征,进而辨别文字区域和背景区域成为了当下文字检测的主流方法。在这里,把文字视为一种特殊的物体,使用深度学习中物体检测的主流方法,例如:Faster R-CNN,YOLO,RFCN等等来进行自然场景的文字检测。但是自然场景中的文字和物体检测中的物体存在较大区别,主要体现在文字区域可能较长,直接使用物体检测方法针对性差,效果不好。因此,针对文字的特点,设计出合理高效的文字检测方法依然存在着较大的挑战。

发明内容

本发明针对自然场景中的图像,提出了一种基于焦点损失函数的深度学习文字检测定位方法和装置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810729838.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top