[发明专利]基于能量最小化的场景视频文本跟踪方法在审
申请号: | 201811420007.3 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109583361A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 殷绪成;蒙丽宇;裴唯一;田澍;朱超 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 皋吉甫 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 能量模型 场景视频 文本跟踪 能量最小化 互斥 跟踪 计算机视觉领域 线性能量函数 跟踪轨迹 轨迹集合 融合检测 损失能量 整体能量 最小化 求解 集合 文本 检测 | ||
本发明公开了一种基于能量最小化的场景视频文本跟踪方法,涉及计算机视觉领域。该方法包括:描述跟踪模型的融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数;对跟踪模型进行求解;具体跟踪过程。本发明提出了一种新的场景视频的文本跟踪方法,针对场景视频的文本,设计了相应的检测能量模型,表观能量模型和互斥能量模型。结合三者得到整体的能量,通过最小化整体能量得到最佳的跟踪轨迹集合,认为此种轨迹集合,损失能量最小,则整体最优。
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于能量最小化的场景视频文本跟踪方法。
背景技术
视频中文本所包含的语义信息对于视频分析与检索有着重要作用。它可以应用在多个方面,例如实时翻译系统,辅助驾驶系统和机器人导航系统等。近年来,场景视频的文本跟踪也引起了相关领域学者的关注,关于这方面的研究也有一些成果。目前文本跟踪的方法多数是属于Tracking-by-detection的框架,Tracking-by-detection可以看作一个数据关联问题,即将邻近帧的检测信息通过跟踪的方法关联到一起。文献1(Tanaka M,GotoH.Autonomous Text Capturing Robot Using Improved DCT Feature and TextTracking[C]//International Conference on DocumentAnalysis andRecognition.IEEE Computer Society,2007:1178-1182.)和文献2(Goto H,TanakaM.Text-Tracking Wearable Camera System for the Blind[C]//InternationalConference on Document Analysis and Recognition.IEEE,2009:141-145.)中,首先用基于离散余弦变换(Discrete Cosine Transform,DCT)的方法检测出候选区域,然后用粒子滤波(particle filtering)将其关联成为跟踪轨迹,其中主要使用了位置和大小等信息作为关联特征。文献3(Minetto R,Thome N,Cord M,et al.Snoopertrack:Text detectionand tracking for outdoor videos[C]//IEEE International Conference on ImageProcessing,ICIP 2011,Brussels,Belgium,September.DBLP,2011:505-508.)中,Minetto等人在使用粒子滤波关联的同时,引入匈牙利算法提高了跟踪效果。
然而,大多数研究主要集中在跟踪轨迹和候选对象之间物体的特征距离。在跟踪任务的文本中,从对象本身提取的特征,即一阶特征(如颜色或笔画宽度)在传统方法中被广泛使用。在许多情况下,这些特征不能很好地区分轨迹的类似候选中的正确的特征。显然,要区分这些文本只使用这些一阶特征是不够的,有必要找到一些其他实体特征来区分这些相似的文本。幸运的是,视频中的场景文本具有相对固定的特点。也就是说,与大多数自主运动的对象(行人或车辆等)不同,文本随着摄像头或背景的移动而移动,文本和文本之间的关系(二阶特征)是恒定的。因此,用具有二阶特征的跟踪模型可以提高对文本的区分度。本文中设计了结合二阶互斥模型(Exclusion Model)的能量函数,通过对能量函数的最小化计算找到最佳匹配状态。
发明内容
为了解决以上问题,本发明提出了一种新的场景视频中的文本跟踪方法,针对文本跟踪的场景中的近似目标难以区分的问题进行改进,减少ID变换,提高文本跟踪的准确率和精确率。场景视频中的文本,存在尺度变化大、目标密集、受光照变化影响、镜头运动导致的模糊抖动等特点,这给准确跟踪带来了很大的问题和挑战。本发明通过两点创新,提升文本跟踪的效果:(1)提出文本的互斥能量模型,描述不同文本块之间的能量关系;(2)设计文本跟踪的能量函数,将检测能量模型,表观能量模型和互斥能量模型融合,通过对最小能量的求解找到整体最佳跟踪轨迹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811420007.3/2.html,转载请声明来源钻瓜专利网。