[发明专利]一种视频字幕文本提取和识别的方法有效
| 申请号: | 201110315054.3 | 申请日: | 2011-10-17 |
| 公开(公告)号: | CN102332096A | 公开(公告)日: | 2012-01-25 |
| 发明(设计)人: | 刘成林;白博;殷飞 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/46 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周国城 |
| 地址: | 100190 中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 字幕 文本 提取 识别 方法 | ||
技术领域
本发明属于模式识别与计算机视觉领域,特别是涉及视频图像中的文本检测与识别的处理方法。
背景技术
视频作为一种最为流行的媒体形式,通过网络和电视广泛传播。为了使用户更方便、快捷地寻找到感兴趣的视频内容,视频检索与分类逐渐成为模式识别与计算机视觉领域研究的热点。在这其中,视频中的文本信息,特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为:(1)视频中的文本信息与视频的当前内容密切相关;(2)视频中的字符有非常明显的视觉特征,便于提取;(3)字符识别(OCR)技术相对目前的语音识别和图像分类技术更为准确和成熟。因此,视频中的文本检测与识别引起了广泛的兴趣。
视频中的文本检测与识别过程主要包括以下三个步骤:(1)文本检测与定位;(2)文本提取;(3)字符识别。其中针对步骤(1)的研究较多,涌现出了许多适用的方法和技术,如中国知识产权局2005年8月24日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。针对步骤(2)(3)的技术相对较少,如2008年1月30日公开的公开号为101115151的专利(“一种视频字幕提取的方法”)根据颜色判断文字极性并通过局部二值化提取文字,然后用OCR软件进行识别。总的来说,现有的视频字幕文字提取和识别的技术还不够完善,主要体现在:对于复杂多变的背景,特别是与前景颜色相似甚至相同的背景无法处理;对于多变的字体,如:宋体、黑体、楷体等的适应性不强;字符识别采用常规的OCR方法,对字符切分和字符图像噪声、低分辨率考虑不足。
针对上述未解决的技术问题,本发明提出了一种有效的用于视频中字幕区域文本提取与识别的方法。
发明内容
本发明的目的是为了克服视频中文本的背景颜色复杂、前景颜色的不确定性、字体多变性和字符切分的不确定性,从而提出了一种对字体、背景颜色具有鲁棒性、并且可以自动判断前景颜色的文本提取和识别方法,对视频字幕文本能够实现快速、准确的提取、切分与识别。
本发明提出的一种视频字幕文本提取和识别的方法采用的技术方案为:
步骤S1:输入视频中字幕区域的图像;
步骤S2:将输入图像转化为灰度图;
步骤S3:判断字幕区域中字符排列的方向;
步骤S4:如果字幕区域中字符排列的方向为竖直排列,则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;
步骤S5:对字幕区域进行分行得到单行字幕图像;
步骤S6:对单行字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像;
步骤S7:对单行字幕二值图像进行过切分得到字符片段序列;
步骤S8:对过切分后的单行字幕二值图像进行文本行识别。
本发明提出的视频字幕文本提取与识别方法的有益效果为:
(1)本发明提出的方法能同时处理水平和竖直的视频字幕文本行;
(2)本发明提出的方法能够对字幕图像区域进行自动分行,对多文本行的字幕图像进行处理与识别;
(3)本发明提出的方法通过对单行字幕图像的连通部件进行分析,自动确定字符前景颜色并滤除噪声连通部件,从而得到清晰的字符前景二值化图像;
(4)本发明提出的方法对文本行图像进行字符过切分得到候选切分方式,并结合候选字符的识别分数和语言上下文模型对候选切分方式进行评价,同时得到字符切分和识别结果,避免了字符宽度变化和间隔不均匀以及字符间笔画粘连造成的切分错误。
综合说来,本发明的视频字幕文字提取和识别方法能有效分割字幕文本行,准确判断字符前景颜色并滤除噪声,并得到准确的字符切分与识别结果,可以适用于视频和图像内容编辑、索引与检索等多种用途。
附图说明
图1是本发明提出的视频字幕文字提取和识别方法流程图。
图2是对字幕图像进行分行的流程图。
图3是对单行字幕图像进行自动判断前景并二值化的流程图。
图4是对二值单行字幕图像进行过切分的流程图。
图5是本发明方法的实现结构图。
图6是对单行字图像进行二值化和去噪后的图像示例。
图7是对二值单行字幕图像进行过切分的图像示例。
图8是对过切分后单行二值图像进行识别中候选切分网格生成的图像示例。
图9是一幅水平字幕区域图像的识别结果示例。
图10是一幅竖直字幕区域图像的识别结果示例。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110315054.3/2.html,转载请声明来源钻瓜专利网。





