[发明专利]一种快速判断文字微博的方法无效

专利信息
申请号: 201310152286.0 申请日: 2013-04-27
公开(公告)号: CN103246885A 公开(公告)日: 2013-08-14
发明(设计)人: 田海;朱启兵;陆玉传 申请(专利权)人: 南京讯思雅信息科技有限公司
主分类号: G06K9/20 分类号: G06K9/20;G06K9/00
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 211100 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 判断 文字 方法
【说明书】:

技术领域

发明公开了一种快速判断文字微博的方法,属于计算机视觉技术领域。

背景技术

微博作为一种新型的信息交互平台,已经拥有非常可观的用户群。但凡任何(群体)事件的发生,都伴随着微博信息的快速转发。由于纯文字易于判断和检测,例如使用关键字,很多微博用户将长段文字块转换成图片(俗称长微博)进行转发和传递。由于图片的识别和检测还不及文字检测匹配的精度,因此给信息安全带来一定的考验。现有的采用文字检测的方法,无法检测图片里面的文字。更加无法使用关键字匹配,给信息安全带来了很大的隐患。此外,目前的图片匹配只能应用简单的物体匹配,无法精确到内嵌文字,更加无法提取关键字。

发明内容

本发明所要解决的技术问题是:针对目前技术的不足之处,利用边角检测算法判断出检测的图片是不是长微博。

本发明为解决上述技术问题采用以下技术方案:一种快速判断文字微博的方法,具体步骤如下:

步骤1. 选取一幅待测图片,检测所述待测图片中的Harris边角点并统计边角点个数;

步骤2. 将待测图片平均分成N个条带,统计每个条带中含有的Harris边角点个数,其中,N的取值为自然数;

步骤3. 判断边角点最多的条带是否包含文字:

(301)如果边角点最多的条带不包含文字,则判断待测图片不包含长段文字;

(302)如果边角点最多的条带包含文字,进入步骤4;

步骤4.判断边角点最多的条带的相邻条带是否包含文字:

(401)如果边角点最多的条带的相邻条带不包含文字,则判断待测图片不包含长段文字;

(402)如果边角点最多的条带的相邻条带包含文字,则判断待测图片包含长段文字。

进一步的,所述步骤3的判断过程,具体如下:

步骤1.统计条带中相邻的2个Harris边角点之间的距离T;

步骤2.统计条带中最左边的Harris边角点与图片左侧边的距离T1,以及条带中最右边的边角点与图片右侧边的距离T2;

步骤3.设定条带的宽度为A,当同时满足下述条件时,判断条带包含文字,否则判断该条带不包含文字:

a.                                                ;

b.;

c.。

进一步的,步骤2中所述的将待测图片沿水平方向平均分成N个条带,N的取值为10。

所述步骤2中,优选将待测图片沿水平方向或竖直方向平均分成N个条带,统计每个条带中含有的Harris边角点个数,其中,N的取值为自然数。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:准确的判断所检测的图片是否属于长微博,进而可以利用目前成熟的OCR技术将长微博图片转换为文字,针对文字进行关键字匹配和检索。

附图说明

图1是本发明所使用检测方法的流程图。

图2是检测条带是否包含文字的判断逻辑示意图。

图3是长微博实例示意图。

图4是未经处理的待检测图片。

图5是待检测图片经Harris检测算法进行兴趣点标注后的示意图。

图6是待检测图片标注后划分为条带进行进一步处理示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

普通图片和长微博在内容上有着非常大的区别,主要包括:普通图片有着连续的像素分布,而长微博像素比较单一;普通图片中边角较少(相对整个图片),而长微博由于文字的缘故含有大量的边角。如图3所示,由于大量文字的特性,必然会存在很多边角点。

根据上述的原理描述,由于文字的特征,通常会含有很多的边角(corners)。因此,利用常见的边角检测算法,例如Harris,可以统计一个图像块里面含有的边角数量。当该数量超过一定的阈值之后,可以认定该图片为长微博图片。

在实际实现中,输入图片首先被分为N(例如N可以取10)个不重叠的条带,每个条带占据整个图片宽度,但是1/N的图片高度。对每一分块使用Harris算法提取边角点为兴趣点。统计每个条带中的兴趣点个数,对于兴趣点最多的条带以及该条带相邻的条带,如果这两个条带都满足下面的条件:“该条带中相邻两个兴趣点的水平距离都小于一个阈值”(例如图像宽度的1/70),那么认为这2个条带中都有文字,从而该图像是长微博。

本发明所使用检测方法的流程图如图1所示。

步骤1:读取一幅任意格式的图像;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京讯思雅信息科技有限公司,未经南京讯思雅信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310152286.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top