[发明专利]基于孪生网络和图像特征匹配的字幕识别方法及系统在审
| 申请号: | 202110295696.5 | 申请日: | 2021-03-19 |
| 公开(公告)号: | CN115115818A | 公开(公告)日: | 2022-09-27 |
| 发明(设计)人: | 徐佳宏;董永飞 | 申请(专利权)人: | 深圳市茁壮网络股份有限公司 |
| 主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V20/62;G06V10/44;G06V30/10;G06V30/19;G06V10/82 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518004 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 孪生 网络 图像 特征 匹配 字幕 识别 方法 系统 | ||
本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统,利用孪生网络确定字幕box位置,只获取对应位置的字幕图片,以减少背景噪声,再以图像特征匹配的手段去重,最后OCR识别,拼接后形成完整的字幕文字。本技术方案利用孪生网络做预处理,从源头上去除了背景噪对后期匹配的影响,因而在准确性上具有突出的优势,同时由于不依赖启发式的技巧,获得了很好地鲁棒性。
技术领域
本发明涉及视频检测领域,尤其是涉及基于孪生网络和图像特征匹配的字幕识别方法及系统。
背景技术
在视频检测领域,通常需要对视频进行字幕提取,例如,存在这样一种应用场景:服务器对新增视频A进行自动化分析,提取演员表,并将视频A与数据库中该演员关联,当用户选择该演员时,视频A自动呈现在集合中。
在上述场景中,技术实现的关键点在于如何准确获取字幕。
现有技术一种是先对字幕图片拼接,再整体OCR识别,另外一种是二值化加直方图识别。
图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓。
直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵轴条纹或线段标识数据分布情况。对图像帧的每一个像素灰度进行统计,形成灰度值0到255的统计图,也叫灰度直方图,图像二值化是直方图的先决条件。
现有的方法对字幕背景噪声或预设的字幕的位置信息敏感,当存在严重的背景噪声时,得到的直方图不准确,而依赖预设字幕的位置这类启发式技巧会导致适应性差。
而且OCR识别对输入长度有一定的限制,先图片拼接再整体识别时,会导致速度慢,识别性能变差。
亟待解决的问题是,提供一种识别方法,既不依赖字幕预设位置等启发式技巧,又通过减少背景噪声提高最终识别的精度。
发明内容
本发明旨在解决现有字幕识别精度不高的问题,为解决上述技术问题,本发明公开了基于孪生网络和图像特征匹配的字幕识别方法及系统,所述的方法包括:
对输入视频进行抽帧,获取帧序列;
相邻的帧序列依次输入孪生神经网络,分别输出包括文字区域box的图片序列;
获取相邻字幕帧的box区域文字图片,利用图像特征匹配,生成新的字幕不重复的图片序列;
由OCR识别输出并形成完整的字幕文字。
值得强调的是,本发明的识别方法是抽帧后先利用孪生网络去除帧序列的背景,获取包括文字区域box的图片序列,通常得到的结果是以黑色为背景的白色文字box框,具体文字已经被白色填充。然后获取box区域文字图片,此时的图片是不包含视频背景的,再利用图像特征匹配,去除重复部分,最后经OCR处理,将图片转化为字幕文字,最终获得完整的字幕内容。
具体的,所述的获取相邻字幕帧的box区域文字图片,包括,
获取经孪生神经网络处理后的相邻帧文字区域box的位置信息;
在原图像帧的同样位置取字幕,恢复成去掉背景信息的字幕帧。
由于box区域的位置信息是孪生网络自动识别产生的,因此此位置信息不是具有人为因素的启发性技巧,不影响方案的适应性。根据位置信息,对照原图像就可以得到新的字幕帧,其特点是,去除了与字幕无关的背景,图片上只包含字幕部分。
具体的,所述的利用图像特征匹配,包括:
根据SIFT算法,得到一系列的匹配对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市茁壮网络股份有限公司,未经深圳市茁壮网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110295696.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电镀设备及电镀方法
- 下一篇:一种基于石英板的发热体及制造方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





