[发明专利]基于能量最小化的场景视频文本跟踪方法在审

申请号：	201811420007.3	申请日：	2018-11-26
公开（公告）号：	CN109583361A	公开（公告）日：	2019-04-05
发明（设计）人：	殷绪成;蒙丽宇;裴唯一;田澍;朱超	申请（专利权）人：	北京科技大学
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	皋吉甫
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	能量模型场景视频文本跟踪能量最小化互斥跟踪计算机视觉领域线性能量函数跟踪轨迹轨迹集合融合检测损失能量整体能量最小化求解集合文本检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于能量最小化的场景视频文本跟踪方法，涉及计算机视觉领域。该方法包括：描述跟踪模型的融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数；对跟踪模型进行求解；具体跟踪过程。本发明提出了一种新的场景视频的文本跟踪方法，针对场景视频的文本，设计了相应的检测能量模型，表观能量模型和互斥能量模型。结合三者得到整体的能量，通过最小化整体能量得到最佳的跟踪轨迹集合，认为此种轨迹集合，损失能量最小，则整体最优。

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于能量最小化的场景视频文本跟踪方法。

背景技术

视频中文本所包含的语义信息对于视频分析与检索有着重要作用。它可以应用在多个方面，例如实时翻译系统，辅助驾驶系统和机器人导航系统等。近年来，场景视频的文本跟踪也引起了相关领域学者的关注，关于这方面的研究也有一些成果。目前文本跟踪的方法多数是属于Tracking-by-detection的框架，Tracking-by-detection可以看作一个数据关联问题，即将邻近帧的检测信息通过跟踪的方法关联到一起。文献1(Tanaka M,GotoH.Autonomous Text Capturing Robot Using Improved DCT Feature and TextTracking[C]//International Conference on DocumentAnalysis andRecognition.IEEE Computer Society,2007:1178-1182.)和文献2(Goto H,TanakaM.Text-Tracking Wearable Camera System for the Blind[C]//InternationalConference on Document Analysis and Recognition.IEEE,2009:141-145.)中，首先用基于离散余弦变换(Discrete Cosine Transform，DCT)的方法检测出候选区域，然后用粒子滤波(particle filtering)将其关联成为跟踪轨迹，其中主要使用了位置和大小等信息作为关联特征。文献3(Minetto R,Thome N,Cord M,et al.Snoopertrack:Text detectionand tracking for outdoor videos[C]//IEEE International Conference on ImageProcessing,ICIP 2011,Brussels,Belgium,September.DBLP,2011:505-508.)中，Minetto等人在使用粒子滤波关联的同时，引入匈牙利算法提高了跟踪效果。

然而，大多数研究主要集中在跟踪轨迹和候选对象之间物体的特征距离。在跟踪任务的文本中，从对象本身提取的特征，即一阶特征(如颜色或笔画宽度)在传统方法中被广泛使用。在许多情况下，这些特征不能很好地区分轨迹的类似候选中的正确的特征。显然，要区分这些文本只使用这些一阶特征是不够的，有必要找到一些其他实体特征来区分这些相似的文本。幸运的是，视频中的场景文本具有相对固定的特点。也就是说，与大多数自主运动的对象(行人或车辆等)不同，文本随着摄像头或背景的移动而移动，文本和文本之间的关系(二阶特征)是恒定的。因此，用具有二阶特征的跟踪模型可以提高对文本的区分度。本文中设计了结合二阶互斥模型(Exclusion Model)的能量函数，通过对能量函数的最小化计算找到最佳匹配状态。

发明内容

为了解决以上问题，本发明提出了一种新的场景视频中的文本跟踪方法，针对文本跟踪的场景中的近似目标难以区分的问题进行改进，减少ID变换，提高文本跟踪的准确率和精确率。场景视频中的文本，存在尺度变化大、目标密集、受光照变化影响、镜头运动导致的模糊抖动等特点，这给准确跟踪带来了很大的问题和挑战。本发明通过两点创新，提升文本跟踪的效果：(1)提出文本的互斥能量模型，描述不同文本块之间的能量关系；(2)设计文本跟踪的能量函数，将检测能量模型，表观能量模型和互斥能量模型融合，通过对最小能量的求解找到整体最佳跟踪轨迹。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京科技大学，未经北京科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811420007.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于时空信息和层级表示的视频人体行为识别方法
下一篇：图像卡通化方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于能量最小化的场景视频文本跟踪方法在审

专利文献下载