[发明专利]基于多通道极值区域的自然场景文本检测方法有效

申请号：	201710249526.7	申请日：	2017-04-17
公开（公告）号：	CN107066972B	公开（公告）日：	2019-06-21
发明（设计）人：	郑建彬;喻捷;詹恩奇;汪阳	申请（专利权）人：	武汉理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/46;G06K9/62
代理公司：	武汉开元知识产权代理有限公司 42104	代理人：	潘杰;李满
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器学习极值区域多通道候选文本文本检测自然场景检测支持向量机构分类器模型启发式规则场景文本单个字符文本区域重复区域准确率去除算法文本成熟
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于多通道极值区域的自然场景文本检测方法，它利用场景文本的特点结合机器学习的方法，采用多通道的极值区域检测提取候选文本区域，能够检测出更多候选文本，进而提升整体召回率，同时，采用启发式规则与机器学习相结合的方法，去除大量重复区域，运用经典的支持向量机构建单个字符文本和文本行的两个分类器模型，有效的滤除非文本区域，能够较好的提升准确率。本发明系统简单方便，通用性高，运用成熟的算法和特征并结合机器学习方法，能达到较好的检测效果。

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于多通道极值区域(ER)的自然场景文本检测方法。

背景技术

随着计算机技术、人工智能等先进技术的迅速发展，图像处理技术向更深层次发展，人们开始研究如何用计算机系统来模拟人类视觉系统，进而按照人类视觉认知过程来解析和理解外部世界。自然场景中不仅有大量的图形信息，还存在蕴含丰富内涵的文本信息，例如，街道名称、建筑物门牌号、公共汽车站牌、商店名称、公告板和广告牌上的文字等等。这些文本字符对场景视觉信息的表达具有重要价值，是描述和理解场景内容的关键线索。因此将场景图像中的文字抽取出来，有利于场景图像的内容分析、检索，可以广泛应用于，视频检索与分析、盲人导航、无人驾驶、智能交通等多个领域。

目前，已存在的自然场景文本检测方法大致可以分为四类：基于连通域的方法、基于边缘的方法、基于纹理的方法和复合方法，基于连通域分析的方法是假设同一区域的字符具有相似的颜色和亮度，并且与背景区域的颜色存在较大差异的基础上，从图像中提取连通区域，然后利用几何约束构造启发式规则进行连通域分析，将子区域合并得到最终的文本区域。基于边缘特征的方法是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测，首先采用某种边缘检测算子从原图像中检测出边缘，然后通过形态学方法将边缘连接成文本块，最后利用一些启发式规则进行筛选，得到最终的文本区域。基于纹理的方法把文本区域看作是一种可与背景区分开来的特殊的纹理，通常采用Gabor变换、小波变换和傅里叶变换等方法检测图像中文本区域的纹理特征。复合方法通常是多种方法结合在一起，取长补短，综合性能，构造出新的文本定位框架。

由于自然场景中文本的大小、格式、方向和对齐方式等变化多样，受字符对比度较低、背景复杂、低分辨率等条件的制约，使得图像中文本认知是一项极具挑战性的任务。由此可见，自然场景中文本检测技术具有非常重大的理论意义和实用价值。

发明内容

本发明的目的在于针对现有技术中自然场景文本的大小、字体、背景等诸多因素导致的检测难点，提供一种基于多通道极值区域的自然场景文本检测方法，该检测方法利用自然场景中的文本灰度基本稳定且与周围背景存在较大差异这一特点，通过多通道提取极值区域得到候选的文本区域，然后通过机器学习的方法过滤非文本区域，进而形成文本行并再次用机器学习方法进行验证达到检测的目的。

为解决上述技术问题，本发明公开的一种基于多通道极值区域的自然场景文本检测方法，其特征在于，它包括如下步骤：

步骤1：输入待检测RGB(红、绿、蓝三色)图像；

步骤2：将待检测RGB图像转换到HSI(色调、色饱和度和强度)颜色空间，分别提取HSI颜色空间中待检测图像的色调、饱和度和灰度，并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像；

步骤3：对步骤2中的6个单独通道图像分别进行极值区域检测，得到对应的多个初步候选文本区域；

步骤4：将图像数据集的训练集中的每张图片依次进行极值区域检测，对每张图片检测时，计算当前检测图片得到的极值区域的面积，将这些极值区域的面积与当前检测图片中的真实文本区域计算面积重叠率，若检测得到的极值区域的面积与当前检测图片中真实文本区域的面积重叠率大于面积重叠率阈值，则将这个极值区域归为正样本，否则，将这个极值区域归为负样本，然后对所有正负样本进行图像大小归一化处理；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710249526.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多通道极值区域的自然场景文本检测方法有效

专利文献下载