[发明专利]用于检测视频中的文本区域的方法、装置、设备以及介质有效
| 申请号: | 201910289541.3 | 申请日: | 2019-04-11 |
| 公开(公告)号: | CN110147724B | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 章成全;李轩;冯浩城;倪子涵;韩钧宇;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/62;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;丁君军 |
| 地址: | 100094 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 检测 视频 中的 文本 区域 方法 装置 设备 以及 介质 | ||
根据本公开的示例实施例,提供了一种用于检测视频中的文本区域的方法、装置、设备以及介质。方法包括基于第一图像帧中检测到的第一组文本区域来确定第一组文本区域的第一组跟踪特征,其中第一图像帧在视频的第一时刻被捕获,并且基于第一组跟踪特征来确定第一时刻之后的第二时刻的第二组预测特征。方法还包括基于第二图像帧中检测到的第二组文本区域来确定第二组文本区域的第二组跟踪特征,其中第二图像帧在视频的第二时刻被捕获,然后基于第二组预测特征和第二组跟踪特征来确定视频在第二时刻的一个或多个文本区域。本公开的实施例通过文本跟踪来辅助检测视频中的文本区域,能够建立视频图像帧间的时序联系,从而提高视频文本检测的准确率。
技术领域
本公开的实施例总体上涉及视频处理领域,并且更具体地涉及用于检测视频中的文本区域的方法、装置、电子设备以及计算机可读存储介质。
背景技术
视频是指将一系列静态图像以电信号的方式加以捕获、记录、处理、存储以及重现的技术,当连续的图像以超过某个帧率的速度变化时,这些静态图像将组成平滑连续的视觉画面。视频对象检测是指在视频中定位和检测感兴趣的目标,并给出每个目标所属的区域(例如边界框)。视频对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。例如,视频文本检测可以从视频中的图像帧中检测出包括各种字符的文本区域,然后,可以对文本区域中的字符进行识别或其他处理。
与单独的图像检测相比,视频场景具有图像帧之间的时序性,现有的一些视频文本跟踪方案主要包括基于图的方案和基于相似性的方案。基于图的方案将文本跟踪当成图优化问题,通过寻找最小损失路径来实现跟踪。基于相似性的方案基于手工设计的一些文本特征以及相邻帧之间的运动信息,进而实现文本的跟踪。
发明内容
根据本公开的示例实施例,提供了一种用于检测视频中的文本区域的方法、装置、电子设备以及计算机可读存储介质。
在本公开的第一方面中,提供了一种用于检测视频中的文本区域的方法。该方法包括:基于第一图像帧中检测到的第一组文本区域,确定第一组文本区域的第一组跟踪特征,其中第一图像帧在视频的第一时刻被捕获;基于第一组跟踪特征,确定第一时刻之后的第二时刻的第二组预测特征;基于第二图像帧中检测到的第二组文本区域,确定第二组文本区域的第二组跟踪特征,其中第二图像帧在视频的第二时刻被捕获;以及基于第二组预测特征和第二组跟踪特征,确定视频在第二时刻的一个或多个文本区域。
在本公开的第二方面中,提供了一种用于检测视频中的文本区域的装置。该装置包括:第一跟踪模块,被配置为基于第一图像帧中检测到的第一组文本区域,确定第一组文本区域的第一组跟踪特征,其中第一图像帧在视频的第一时刻被捕获;特征预测模块,被配置为基于第一组跟踪特征,确定第一时刻之后的第二时刻的第二组预测特征;第二跟踪模块,被配置为基于第二图像帧中检测到的第二组文本区域,确定第二组文本区域的第二组跟踪特征,其中第二图像帧在视频的第二时刻被捕获;以及文本确定模块,被配置为基于第二组预测特征和第二组跟踪特征,确定视频在第二时刻的一个或多个文本区域。
在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的方法或过程。
在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的方法或过程。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910289541.3/2.html,转载请声明来源钻瓜专利网。





