[发明专利]一种视频字幕文本提取和识别的方法有效

申请号：	201110315054.3	申请日：	2011-10-17
公开（公告）号：	CN102332096A	公开（公告）日：	2012-01-25
发明（设计）人：	刘成林;白博;殷飞	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/32;G06K9/46
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	周国城
地址：	100190 中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频字幕文本提取识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频字幕文本提取和识别的方法，其特征在于，该方法包括：

步骤S1：输入视频中字幕区域的图像；

步骤S2：将输入图像转化为灰度图；

步骤S3：判断字幕区域中字符排列的方向；

步骤S4：如果字幕区域中字符排列的方向为竖直排列，则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；

步骤S5：对字幕区域进行分行得到单行字幕图像；

步骤S6：对单行字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像；

步骤S7：对单行字幕二值图像进行过切分得到字符片段序列；

步骤S8：对过切分后的单行字幕二值图像进行文本行识别。

2.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，步骤S5中对字幕区域进行分行具体包括如下步骤：

步骤S51：利用Sobel算子求取字幕区域中每个像素点的边缘强度，得到字幕区域边缘图像；

步骤S52：利用大津法Otsu对字幕区域边缘图像进行二值化得到二值图像；

步骤S53：统计二值图像中每一像素行的有效边缘点数；从所述二值图像的起始行开始，按某一扫描方向逐行进行扫描，当某行中有效边缘点数超过阈值时，以该行为基准，按扫描方向的反方向倒退三行作为一个文本行的开始，然后按扫描方向跳跃20行，继续按扫描方向进行扫描；当某一行中所含有效边缘点数低于阈值时，以该行为基础，按扫描方向前进三行作为一个文本行的结束；重复以上过程，直至扫描完最后一行停止；最后得到了所有的文本行区域。

3.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，步骤S6对单行的字幕区域自动判断字符前景颜色，并得到真实的单行字幕二值图像的具体过程包括如下步骤：

步骤S61：对单行字幕图像进行局部二值化；

步骤S62：计算两个全局阈值：高亮度阈值ThH和低亮度阈值ThL；

步骤S63：对于单行字幕图像中的每一个像素点，如果其局部二值化的输出为1，并且本身灰度值高于高亮度阈值ThH，则记为前景候选1；如果其局部二值化的输出为0，并且本身灰度值低于低亮度阈值ThL，记为前景候选2；其他不符合以上条件的像素点不作为前景候选；

步骤S64：基于前景候选1和前景候选2分别生成二值图像，对每个二值图像分别进行去噪和是否为真实前景进行打分；分低的二值图像为最终的单行字幕二值图像。

4.如权利要求3所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S64中对两种前景候选的二值图像分别进行去噪和是否为真实前景进行打分的具体过程包括如下步骤：

步骤S641：将所有对应前景候选1或前景候选2、且距离单行字幕图像边缘距离大于2的像素点记为1，其他像素点记为0，生成二值图像；

步骤S642：利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息，对步骤S641所得的二值图像进行去噪；

步骤S643：对去噪后得到的二值图像进行形态打分，得到分值M；

步骤S644：对去噪后得到的二值图像进行笔画宽度一致性打分，得到分值T；

步骤S645：最终该二值图像的前景真实度分值为TM＝0.6×T+0.4×M。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110315054.3/1.html，转载请声明来源钻瓜专利网。

上一篇：导压管的阻塞诊断装置及阻塞诊断方法
下一篇：牙科用固化性组合物及使用其而成的复合树脂

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视频字幕文本提取和识别的方法有效

专利文献下载