[发明专利]一种视频字幕的处理方法及处理装置在审
| 申请号: | 202011407492.8 | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112488107A | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 张现丰;刘海军;王璇章;庄庄 | 申请(专利权)人: | 北京华录新媒信息技术有限公司;中国华录集团有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/40 |
| 代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 张力 |
| 地址: | 100043 北京市石景山*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 字幕 处理 方法 装置 | ||
本发明属于视频内容分类技术领域,具体涉及一种视频字幕的处理方法及处理装置,其中处理方法包括:S1:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;S2:根据多个所述像素点,确定所述图像的第一文本区域;S3:按照预设规则,从所述第一文本区域中提取第二文本区域;S4:对所述第二文本区域进行识别以获取图像文本;S5:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。通过上述步骤,能够有效识别视频流中每一帧图像的文本,避免了噪声对图像文本识别的干扰,大大提升了识别的准确率。
技术领域
本发明属于视频内容分类技术领域,具体涉及一种视频字幕的处理方法及处理装置。
背景技术
视频在视觉上是一系列连续图像的集合,是一种没有结构的图像流。由于视频缺乏索引信息,人们无法对它进行高效浏览和检索。为了辅助人们快速寻找感兴趣的视频片段,除了采取“快进”和“快倒”这种耗时的方式进行线性浏览,很多的视频还标注有标签。而标签则需要根据视频的内容(即字幕)而定,即需要通过对饰品字幕进行检测和提取。
视频字幕检测和提取一般包括视频字幕定位、提取和识别,现有的视频字幕定位方法中通常会默认字幕处于屏幕的下四分之一,即宽为M,高为3N/4至N的区域为字幕区域,但是当某些非常规视频出现时,如视频字幕出现在屏幕上方或两侧时,依旧采用固有的字幕提取范围可能会导致字幕定位不准确而无法提取或提取到不完整字幕等情况的出现。现有的视频字幕提取方法则面临三大问题:第一,视频图像的复杂背景使字幕提取和分割极其困难。第二,为避免遮挡图像的主体部分,许多视频字符的尺寸都相当小,分辨率低。第三,数字视频采用有损压缩方式的格式存贮,再次降低了其分辨率。对于上述问题以及字幕字体、大小和对齐排列方式多变,成像存在噪音、模糊、透视、字体格式种类繁多等情况,本发明所提出的视频字幕提取算法要比其它边缘检测定位算法准确率高。
基于上述原因,导致现有技术中视频字幕的提取不仅费时费力,且正确率不高,针对性不强。
因此,针对以上不足,本发明急需提供一种视频字幕的处理方法及处理装置。
发明内容
本发明的目的在于提供一种视频字幕的处理方法及处理装置,以解决现有技术中视频字幕的提取方法费时费力且正确率低的问题。
一方面,本发明提供的视频字幕的处理方法,包括:S1:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;S2:根据多个所述像素点,确定所述图像的第一文本区域;S3:按照预设规则,从所述第一文本区域中提取第二文本区域;S4:对所述第二文本区域进行识别以获取图像文本;S5:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。
如上所述的视频字幕的处理方法,进一步优选为,S1包括:S11:采用三色不等权变换策略逐帧处理视频流中的图像,得到灰度图像;S12:采用阈值法处理灰度图像,得到包括多个像素点的二值化图像。
如上所述的视频字幕的处理方法,进一步优选为,S2包括:S21:按照8邻域相通的规则对S1中的二值化图像进行连通域标记,同一连通域内的像素点具有相同的标号;S22:利用启发式规则筛选并去除面积过大或过小的连通域,得到第一文本区域。
如上所述的视频字幕的处理方法,进一步优选为,S22还包括判断相邻帧图像的连通域是否匹配,将相匹配的多帧图像合并成子集;按照子集的时序使每个子集输出若干带有时间轴的二值化图像,得到第一文本区域。
如上所述的视频字幕的处理方法,进一步优选为,S3包括:S31:使用多级边缘检测算法查找第一文本区域中图像的边缘,并输出包含有边缘像素点的二值图像;S32:计算S31中二值图像每个边缘像素点的梯度,根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像;S33:基于S32中的二值图像中像素点的笔画宽度划分连通域,位于同一连通域的笔画为同一字符链;S34:遍历S33中所有的字符链,并将首尾相接的字符链组合到一起形成文本,该文本的包围矩形范围构成第二文本区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华录新媒信息技术有限公司;中国华录集团有限公司,未经北京华录新媒信息技术有限公司;中国华录集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011407492.8/2.html,转载请声明来源钻瓜专利网。





