[发明专利]一种视频字幕文本提取和识别的方法有效
| 申请号: | 201110315054.3 | 申请日: | 2011-10-17 |
| 公开(公告)号: | CN102332096A | 公开(公告)日: | 2012-01-25 |
| 发明(设计)人: | 刘成林;白博;殷飞 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/46 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周国城 |
| 地址: | 100190 中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 字幕 文本 提取 识别 方法 | ||
1.一种视频字幕文本提取和识别的方法,其特征在于,该方法包括:
步骤S1:输入视频中字幕区域的图像;
步骤S2:将输入图像转化为灰度图;
步骤S3:判断字幕区域中字符排列的方向;
步骤S4:如果字幕区域中字符排列的方向为竖直排列,则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;
步骤S5:对字幕区域进行分行得到单行字幕图像;
步骤S6:对单行字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像;
步骤S7:对单行字幕二值图像进行过切分得到字符片段序列;
步骤S8:对过切分后的单行字幕二值图像进行文本行识别。
2.如权利要求1所述的视频字幕文本提取和识别方法,其特征在于,步骤S5中对字幕区域进行分行具体包括如下步骤:
步骤S51:利用Sobel算子求取字幕区域中每个像素点的边缘强度,得到字幕区域边缘图像;
步骤S52:利用大津法Otsu对字幕区域边缘图像进行二值化得到二值图像;
步骤S53:统计二值图像中每一像素行的有效边缘点数;从所述二值图像的起始行开始,按某一扫描方向逐行进行扫描,当某行中有效边缘点数超过阈值时,以该行为基准,按扫描方向的反方向倒退三行作为一个文本行的开始,然后按扫描方向跳跃20行,继续按扫描方向进行扫描;当某一行中所含有效边缘点数低于阈值时,以该行为基础,按扫描方向前进三行作为一个文本行的结束;重复以上过程,直至扫描完最后一行停止;最后得到了所有的文本行区域。
3.如权利要求1所述的视频字幕文本提取和识别方法,其特征在于,步骤S6对单行的字幕区域自动判断字符前景颜色,并得到真实的单行字幕二值图像的具体过程包括如下步骤:
步骤S61:对单行字幕图像进行局部二值化;
步骤S62:计算两个全局阈值:高亮度阈值ThH和低亮度阈值ThL;
步骤S63:对于单行字幕图像中的每一个像素点,如果其局部二值化的输出为1,并且本身灰度值高于高亮度阈值ThH,则记为前景候选1;如果其局部二值化的输出为0,并且本身灰度值低于低亮度阈值ThL,记为前景候选2;其他不符合以上条件的像素点不作为前景候选;
步骤S64:基于前景候选1和前景候选2分别生成二值图像,对每个二值图像分别进行去噪和是否为真实前景进行打分;分低的二值图像为最终的单行字幕二值图像。
4.如权利要求3所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S64中对两种前景候选的二值图像分别进行去噪和是否为真实前景进行打分的具体过程包括如下步骤:
步骤S641:将所有对应前景候选1或前景候选2、且距离单行字幕图像边缘距离大于2的像素点记为1,其他像素点记为0,生成二值图像;
步骤S642:利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息,对步骤S641所得的二值图像进行去噪;
步骤S643:对去噪后得到的二值图像进行形态打分,得到分值M;
步骤S644:对去噪后得到的二值图像进行笔画宽度一致性打分,得到分值T;
步骤S645:最终该二值图像的前景真实度分值为TM=0.6×T+0.4×M。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110315054.3/1.html,转载请声明来源钻瓜专利网。





