[发明专利]一种视频文字跟踪方法及电子设备有效

专利信息
申请号: 202010108338.4 申请日: 2020-02-21
公开(公告)号: CN113297875B 公开(公告)日: 2023-09-29
发明(设计)人: 汤其森;姚恒志 申请(专利权)人: 华为技术有限公司
主分类号: G06V20/40 分类号: G06V20/40;G06V20/62;G06T7/246
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 熊永强;李稷芳
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 视频 文字 跟踪 方法 电子设备
【说明书】:

一种视频文字跟踪方法及电子设备。在该方法中,将文本行区域拆分为各个子区域,对各子区域进行跟踪再经过处理联结成新文本行。实施本申请提供的技术方案,不仅可以兼容于直线文本或者弯曲文本场景,对于展现出形变性质的文本行也有很好的跟踪效果,能够准确跟踪预测文本行的位置。

技术领域

本申请涉及人工智能(Artificial Intelligence,AI)领域中光学字符识别(Optical Character Recognition,OCR)子领域,尤其涉及一种视频文字跟踪方法及电子设备。

背景技术

实景增强现实(Augmented Reality,AR)翻译与拍照翻译最大的不同在于:AR翻译无需先拍照再识别图片内容,而是对摄像头中的文字内容呈现实时翻译效果,只要用户将摄像头对准需要翻译的内容,它就可以在原文位置给出准确的实时翻译。实景AR翻译的整个过程完全是动态的,比起以往的拍照翻译,体验上有了跨越式升级,尤其适用于旅游、海淘购物、阅读外文文献等场景。

AR翻译的全流程涉及到OCR文字检测识别、文字跟踪(追踪)、机器翻译、AR渲染、翻译文字回填等技术。由于进行OCR耗时较长(百毫秒至秒级每视频帧),在实际拍摄场景中手机或相机的镜头移动时不可能通过逐帧进行OCR的方式得到文本行的位置,这样的方案无法满足实时性,因此在AR翻译产品中对前期OCR识别出的文字进行跟踪,预测提供文本行的位置,是实时展现翻译效果的必要保证。此外,实景AR翻译的技术也可以应用于视频字幕自动翻译回填等场景中,快速完成视频中每一帧的字幕翻译,极大地节省人力。

目前,如图1所示,为了处理取景时文本行边框与取景边框各边不平行所导致的文本行倾斜问题,每行直线文本的位置一般用一个倾斜矩形确定。当前使用较多的技术方案是:首先对镜头稳定后的第一个视频帧进行OCR,检测与识别出视频帧中的文本行位置及文字内容,其次在每个文本行区域中使用角点等关键点检测技术确定一定数目的追踪点,再采用光流等跟踪方法得到这些追踪点在下一个视频帧中的对应位置,从而可以计算出每个文本行区域在两个视频帧之间的投影变换矩阵(或单应性矩阵),将投影矩阵作用于文本行区域倾斜矩形的四个顶点即可得到文本行在下一帧中的位置,进而进行翻译文字回填;重复上述追踪过程,直到有文本行移出取景视野以外或者被其他物体遮挡等情形,使得能在相邻两帧中找出对应位置的追踪点数目比例(相对于做OCR的第一帧)小于阈值时,认为此次跟踪失败,待镜头稳定时重新进行OCR开始另一次跟踪流程。该方法的应用,使得即使文本行相对取景时倾斜角度发生变化,也能跟踪到文本行在最新的视频帧中的文本行位置,在相应位置进行回填。

然而,现有技术在处理弯曲文本的跟踪问题时有缺陷:当跟踪弯曲文本时,用于框定文本行位置的倾斜矩形中存在着大量文本区域以外的空白,如果用目标检测常用的IOU(实际文本区域与预测文本区域的面积交并比)作为衡量指标的话,虽然实际文字区域与预测区域间的相交面积可能并不小,但是使用较大的预测区域做归一化之后,衡量指标的数值一定是不甚理想的;这样的弯曲文本常常出现在图2所示的商店招牌以及视频的艺术字旁白或字幕等场景中。

其次,对于可以形变的弯曲文本,例如瓶装饮料的外包装文本,如图3所示,在拍摄角度变化时,文本的“朝向”也会发生变化,倾斜矩形更是无法在形状上体现这样的变化。

因此,现有技术在对弯曲文本进行跟踪时,无法准确地跟踪定位视频文本行的位置。

发明内容

本申请提供了一种视频文字跟踪方法及电子设备,区别于现有技术针对全文本行进行跟踪,将文本行区域拆分为各个子区域,对各子区域进行跟踪再经过处理联结成新文本行,不仅可以兼容于直线文本(文字中心点在一条直线上)或者弯曲文本场景,对于展现出形变性质的文本行也有很好的跟踪效果,能够准确跟踪预测文本行的位置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010108338.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top