[发明专利]一种视频字幕信息提取方法有效

申请号：	200710178831.8	申请日：	2007-12-05
公开（公告）号：	CN101453575A	公开（公告）日：	2009-06-10
发明（设计）人：	刘安安;宋砚;庞琳;李锦涛;张勇东;唐胜	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	H04N5/278	分类号：	H04N5/278
代理公司：	北京泛华伟业知识产权代理有限公司	代理人：	王勇
地址：	100080北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频字幕信息提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及视频中的字幕信息提取，特别涉及一种利用视频语义信息提取视频字幕的方法。

背景技术

近年来，数字视频技术的发展相当迅速，在广播电视领域逐步取代了传统的存储和发送模式，在互联网上的应用更是以惊人的速度得到扩展。数字视频具有采集和存取方便、信息量大的优势，但同时也存在数据量大、描述困难的特点。随着视频数据的海量增长，人们迫切需要先进的视频处理技术从而实现有效的视频索引，摘要，浏览以及检索。视频字幕信息因其相对易于提取，直接表征视频语义和便于基于文本的视频检索等特点而具有重要的研究和应用价值。

现有视频字幕信息提取方法主要分为三类。第一类为基于连通区域的提取方法。该方法可以实现文本区域的快速定位和提取，但是对背景复杂度非常敏感，鲁棒性差。第二类为基于纹理的区域检测方法。该算法实现起来较简单，但是由于与字幕具有相近纹理区域的影响，使得检测准确率较低。第三类是基于边缘的检测方法。该方法计算复杂度低，但是在一定程度上受视频分辨率和背景信息的影响。此外，还存在一些通过分类器建立文字区域模型的方法，但是该类方法对训练样本有很强的依赖性，模型建立比较复杂。

在上述的基于边缘的检测方法中，实现字幕检测、提取时所要完成的基本步骤包括：1、预处理操作；2、字幕区域检测操作；3、字幕区域分割操作；4、字幕区域增强操作；5、字幕提取操作；6、文字识别操作。

其中，在字幕区域检测时，通常采用机器学习的方法，如支持向量机或神经网络等，这种机器学习的方法需要收集样本集并且进行模型的训练，如果样本集选取的不好，可能训练出的模型并不适合现实中的各种情况，影响视频字幕检测的准确性。而且字幕区域检测中所要完成的多尺度变换方法一般只采用图像下采样的方法，这样不利于对视频中的小字体的检测。

在做字幕区域增强的过程中，现有技术通过边缘图做匹配，以检测具有相同字幕的视频帧，但由于阈值选择对边缘提取的影响很大，所以对不同帧提取边缘图变化较大，很难通过准确的阈值设定来检测具有相同字幕的视频帧。

而在字幕提取的过程中，现有技术或者采用基于阈值的方法，或者采用基于笔画的方法。无论是采用基于阈值的方法，还是基于笔画的方法都有各自的缺陷。例如，基于阈值的方法具有通用性不强，对复杂背景的情况很难适应的缺陷，而基于笔画的方法则具有笔画交叉部分很难被找到，从而影响字幕识别的缺陷。

鉴于现有的视频字幕提取方法在各个实现步骤中存在着各自的问题，而在实际检测的各种视频中又因为以下四个因素制约视频字幕信息提取的准确性和鲁棒性：1.背景的复杂度；2.视频图像的低分辨率；3.字体，尺寸，颜色及排列方式等的变化；4.不同语言字符的特性。因此，需要一种新的视频字幕提取方法以提高视频字幕信息提取的准确性和鲁棒性。

发明内容

因此，本发明的任务是克服现有的视频字幕提取方法在字幕区域检测、字幕区域分割、字幕区域增强、字幕提取等步骤的实现上所存在的不足，从而影响字幕提取的准确性与鲁棒性的缺陷，从而提供一种具有更高准确性和鲁棒性的视频字幕提取方法。

为了实现上述目的，本发明提供了一种视频字幕信息提取方法，包括以下步骤：

步骤1)、对需要提取字幕的视频图像进行预处理；

步骤2)、对预处理后的视频图像进行多尺度的字幕区域检测，得到代表字幕区域大小与位置的矩形块；包括：

步骤21)、对预处理后的视频图像进行尺度大小的变换操作，得到多个不同尺度大小的图像；其中，对预处理后的视频图像进行尺度大小的变换操作时，同时采用了图像上采样和图像下采样的方法，得到与原图相比尺度更大与更小的多个变换后图像；

步骤22)、对步骤21)所得到的多个不同尺度大小的图像中的所有象素点求取边缘强度；

步骤23)、在各个图像中，对步骤22)所得到的象素点的边缘强度做二值化处理，得到相应的边缘图；

步骤24)、对各个尺度的图像进行字幕区域粗检测，得到各个图像中字幕所在的大致区域；该步骤具体包括：

步骤241)、为各个尺度图像的边缘图建立DCT图；该步骤包括：

步骤2411)、在一个边缘图中，用一个滑动窗口对所述边缘图的横向和纵向分别进行扫描，统计所述滑动窗口中上、下、左、右四个子窗口内的边缘象素个数n_a，n_b，n_c，n_d；

步骤2412)、计算表示每个窗口边缘象素分布散度的值n，其中

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710178831.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N5-00 电视系统的零部件
H04N5-04 .同步
H04N5-14 .视频图像信号电路
H04N5-222 .电视演播室线路；电视演播室装置；电视演播室设备
H04N5-30 .转变光或模拟信息为电信号
H04N5-38 .发射机电路

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视频字幕信息提取方法有效

专利文献下载