[发明专利]一种基于深度学习的视频字幕检测与识别方法及系统在审
申请号: | 201810690120.7 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108805102A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 孙宏亮;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06K9/40;G06K9/34 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频图像 形态学 视频字幕 文本区域 纹理特征 学习算法 去噪 计算机软件技术 受限玻尔兹曼机 背景区域 定位图像 二值图像 复杂背景 理论应用 区域定位 视频文本 文本图像 纹理图像 训练样本 增量学习 字符识别 再映射 中文字 检测 准确率 滤波 去除 视频 文本 学习 优化 | ||
本发明属于计算机软件技术领域,公开了一种基于深度学习的视频字幕检测与识别方法及系统,将深度学习算法理论应用于视频文本区域定位与识别过程,将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;将纹理特征作为训练样本,利用受限玻尔兹曼机逐层对纹理图像进行增量学习,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像。本发明采用2D‑Gabor滤波器与深度学习算法相结合的方法,实现对复杂背景视频中文本区域的定位,并优化了基于形态学的视频图像去噪方法,再通过OCR系统实现字符的识别,提高了OCR系统字符识别的准确率。
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于深度学习的视频字幕检测与识别方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
随着互联网视频内容的不断增加,以及数字图书馆、视频点播、远程教学等大量的多媒体应用,如何在海量视频中检索出所需要的资料显得至关重要。
传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手工标注等原因,已经不能满足海量视频检索的需求。因此从20世纪90年代开始,基于内容的视频检索技术成为研究的热点问题,而字幕识别技术正是实现视频检索的关键技术,如果能够自动识别视频中的字幕,则可以得到反映视频内容的文本信息,通过这些文本信息就可以实现基于查询的视频检索。所以,该技术是下一代搜索引擎的关键技术,具有十分重要的研究和应用价值。
视频字幕的检测和识别是视频文本处理的关键技术,尤其是在外语视频翻译处理的过程,字幕检测与识别对于繁杂的翻译工作有极大的促进作用,翻译人员不必对着视频进行查看并手动提取字幕工作,从而极大的解放了翻译人员,使翻译人员工作效率得到质的提升。
本方案采用基于深度学习的识别方法,可以解决复杂高速场景下的文字定位准确度低,文字定位与识别速度慢等问题,具有高效,高速,可迭代,识别率高等特点。
综上所述,现有技术存在的问题是:
(1)传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手工标注等原因,已经不能满足海量视频检索的需求。
(2)现有技术在字幕检测上,没有运用基于边缘的检测和分割算法,不能充分利用视频在时间上的冗余信息进行二次过滤以提高准确率。在字幕识别上,现有技术没有用基于连通区域统计的方法来判断视频字幕的颜色,基于局部扫描窗口进行灰度图片的二值化,通过人工智能深度学习的方法将图像中的文字识别出来,不能在视频字幕的检测和识别上取得好的效果。
(3)传统的基于模式识别的技术,由于技术原因,无法满足多场景,高复杂度情况下的正确识别,不同的场景就需要切换不同的算法方式,人力投入成本巨大,效果也不好。
解决上述技术问题的难度和意义:
视频中的文本能够给视频检索和索引提供重要的辅助信息,有时视频中的文本包含了其它地方没有的信息,例如电影片头的字幕,有时视频中的文本是一种重要而简洁的辅助信息,例如体育比赛中的得分、股票价格。如果视频中的文本能够被有效地提取和识别,那么许多高层次的应用,例如视频摘要,人工智能识别就可以更好地实现
由于复杂视频图象中文字的大小,风格,颜色,字体等复杂多变,目前还没有一种算法在各种应用中均能达到令人们满意的效果,往往需要把几种方法结合起来使用。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的视频字幕检测与识别方法及系统。
本发明是这样实现的,一种基于深度学习的视频字幕检测与识别方法,所述于深度学习的视频字幕检测与识别方法包括:
将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810690120.7/2.html,转载请声明来源钻瓜专利网。