[发明专利]一种视频字幕文本提取和识别的方法有效

申请号：	201110315054.3	申请日：	2011-10-17
公开（公告）号：	CN102332096A	公开（公告）日：	2012-01-25
发明（设计）人：	刘成林;白博;殷飞	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/32;G06K9/46
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	周国城
地址：	100190 中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频字幕文本提取识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于模式识别与计算机视觉领域，特别是涉及视频图像中的文本检测与识别的处理方法。

背景技术

视频作为一种最为流行的媒体形式，通过网络和电视广泛传播。为了使用户更方便、快捷地寻找到感兴趣的视频内容，视频检索与分类逐渐成为模式识别与计算机视觉领域研究的热点。在这其中，视频中的文本信息，特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为：(1)视频中的文本信息与视频的当前内容密切相关；(2)视频中的字符有非常明显的视觉特征，便于提取；(3)字符识别(OCR)技术相对目前的语音识别和图像分类技术更为准确和成熟。因此，视频中的文本检测与识别引起了广泛的兴趣。

视频中的文本检测与识别过程主要包括以下三个步骤：(1)文本检测与定位；(2)文本提取；(3)字符识别。其中针对步骤(1)的研究较多，涌现出了许多适用的方法和技术，如中国知识产权局2005年8月24日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。针对步骤(2)(3)的技术相对较少，如2008年1月30日公开的公开号为101115151的专利(“一种视频字幕提取的方法”)根据颜色判断文字极性并通过局部二值化提取文字，然后用OCR软件进行识别。总的来说，现有的视频字幕文字提取和识别的技术还不够完善，主要体现在：对于复杂多变的背景，特别是与前景颜色相似甚至相同的背景无法处理；对于多变的字体，如：宋体、黑体、楷体等的适应性不强；字符识别采用常规的OCR方法，对字符切分和字符图像噪声、低分辨率考虑不足。

针对上述未解决的技术问题，本发明提出了一种有效的用于视频中字幕区域文本提取与识别的方法。

发明内容

本发明的目的是为了克服视频中文本的背景颜色复杂、前景颜色的不确定性、字体多变性和字符切分的不确定性，从而提出了一种对字体、背景颜色具有鲁棒性、并且可以自动判断前景颜色的文本提取和识别方法，对视频字幕文本能够实现快速、准确的提取、切分与识别。

本发明提出的一种视频字幕文本提取和识别的方法采用的技术方案为：

步骤S1：输入视频中字幕区域的图像；

步骤S2：将输入图像转化为灰度图；

步骤S3：判断字幕区域中字符排列的方向；

步骤S4：如果字幕区域中字符排列的方向为竖直排列，则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；

步骤S5：对字幕区域进行分行得到单行字幕图像；

步骤S6：对单行字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像；

步骤S7：对单行字幕二值图像进行过切分得到字符片段序列；

步骤S8：对过切分后的单行字幕二值图像进行文本行识别。