[发明专利]自适应阈值字幕检测方法有效

专利信息
申请号: 201210078888.1 申请日: 2012-03-23
公开(公告)号: CN102625029A 公开(公告)日: 2012-08-01
发明(设计)人: 廉仁淳;艾竹轩;金英花;曹喜信;刘京;陈靖 申请(专利权)人: 无锡引速得信息科技有限公司
主分类号: H04N5/14 分类号: H04N5/14;G06T7/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 214000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应 阈值 字幕 检测 方法
【说明书】:

技术领域

发明涉及视频分析和检索技术领域,特别涉及一种自适应阈值字幕检测方法。

背景技术

视频中的字幕与视频影像内容相配合,使得观看的人更容易领会视频的内容。随着低码率视频编码的发展和应用领域逐渐扩大,手机电视等移动视频推广也促进了低码率视频编码应用。为了适应带宽的要求,考虑到视频显示效果的损失,因此编码时若能将观众感兴趣的部分检测出并加以保护,就能实现视频显示效果。其中观众感兴趣的部分中,字幕区域是最重要的。

传统的字幕检测方法有如下4种:(1)用纹理特征逐点或逐块进行分析,这种方法的优点是能够检测出复杂背景下的文字区域,但是计算复杂度大,稳定性也不好。(2)假设字幕是单色的,然后采用颜色聚类或者连通区域等方法,利用图像分割,把字符从背景中分割出来,这种方法的前提不一定成立,因为字幕不一定总是单色的,还有半透明字幕等情况存在。(3)先把图像分成小块,然后用训练好的学习分类器把子块标注为字幕或非字幕,这种虽然方法检测效果好,但是算法复杂而且需要现有样本进行训练。(4)通过寻找垂直边缘来检测字幕,速度较快,但是错误率比较高,而且设置参数多而复杂。

发明内容

鉴于上述问题,本发明的目的在于提供一种快速、准确、稳定将视频信号中的字幕提取出来方便阅读的自适应阈值字幕检测方法。

为实现上述目的,本发明提供的自适应阈值字幕检测方法,该方法的具体步骤如下:

(1)第一,启动算法,之后视频帧开始计算;

(2)第二,计算出前后帧差,将帧差二值化进行判断字幕是否出现。

计算当前帧和前一帧的帧差Dx,字幕出现处会有较大帧差,帧差起到启动检测的作用,可以选取基本阈值Td,比如最高亮度的1/3;将将帧差Dx二值化,根据行30列10判断是否出现字幕和视频帧是否结束;也就是帧差Dx与基本阈值比较,将帧差Dx二值化为0和255;扫描帧差,若一行字幕点数约大于30并且连续出现10行,这样看是否出现字幕,还是视频帧结束。

(3)第三,若有字幕出现,利用各点边缘强度的矩阵和亮度信息对字幕位置进行定位。

字幕位置定位需要使用边缘强度和亮度信息,不同的视频由于各种原因会有不同的亮度和清晰度;比如拍摄的原因或者前处理的原因,这不但会影响亮度的阈值而且会影响边缘强度的阈值;如果使用固定的阈值,阈值设置过高,会产生漏检,过低则会产生误检,因此对不同亮度和清晰度的视频应该使用不同的阈值;

(4)第四,亮度分量。

其中亮度信息已经存在,帧差和边缘强度需要通过计算得出;若原视频是YUV格式,用一帧的亮度分量减去上一帧的亮度分量,可以得到帧差矩阵;边缘强度矩阵可用sobel算子。

人工加入的字幕为了便于观众阅读,往往符合一般人的书写阅读习惯,视频字幕的特点总的来说可以从两方面考虑,一是视频字幕的时间相关性,二是视频字幕的空间相关性。

1)视频字幕的时间相关性

由于视频字幕的特殊性,利用视频字幕的时间相关性可以大大降低计算复杂度。为了让人有充分的时间阅读字幕,视频字幕通常在出现之后的连续N帧不再发生变化。通常的视频编码的速度是每秒十几帧到几十帧,假设视频编码速度为f帧/秒(f>15),如果视频字幕维持t秒(t>2),那么在出现字幕之后的ft帧中,字幕不会发生变化,这时我们只需要判断字幕是否结束或改变,而不需要重新定位其位置。如果判断一帧字幕的复杂度是0,那么平均复杂度就会小于0/30。

2)视频字幕的空间相关性

字幕的空间相关性表现在:①字幕中的文字通常是横向排列;②字幕的长度和高度满足一定的范围,一行字幕中间不会出现较大的断裂,字幕不会顶格;③文字的亮度、色度接近;④文字区域的纹理复杂度接近且纹理复杂度高。根据这些特点,先把可能的文字区域提取出来,再根据形态学方法进行排除,就可以得到真正的文字区域。

视频字幕的检测与图像中字幕的检测的本质区别就是视频字幕的时间相关性,而传统的检测方法由于没有利用这一特性,每一帧视频都进行检测,除了效率低之外,更重要的是字幕检测区域无法保持帧间的稳定性,有时容易误检到背景字幕,因而在对检测的字幕区域进行处理的时候就不能随意增强字幕效果,因为帧间的不稳定性会导致处理的字幕区域在连续播放的时候出现闪烁。而本算法将检测过程分成字幕出现条件判断、字幕定位、字幕结束条件判断这三个部分,这样在检测出字幕区域后就不再对字幕区域重新定位,避免了帧间的不连续性,不会误检到背景中的字幕和其他复杂纹理,也增加了处理的实时性。

由此,与传统算法进行复杂度分析。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡引速得信息科技有限公司,未经无锡引速得信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210078888.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top