[发明专利]视频字幕识别方法、装置、介质及电子设备在审

申请号：	202110277906.8	申请日：	2021-03-15
公开（公告）号：	CN113052169A	公开（公告）日：	2021-06-29
发明（设计）人：	马天泽;王铭喜;马超	申请（专利权）人：	北京小米移动软件有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/62
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	王晓霞
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频字幕识别方法装置介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种视频字幕识别方法、装置、介质及电子设备，包括：获取待处理视频中的多个目标视频帧；识别多个目标视频帧中的每个目标视频帧中的字幕文本；按照多个目标视频帧在待处理视频中的顺序依次判断相邻的目标视频帧中的字幕文本是否相同；将同一字幕文本首次出现和最后出现时分别对应的目标视频帧的时间戳确定为同一字幕文本的起始时间和终止时间。通过上述技术方案，在对该待处理视频中的目标视频帧进行字幕文本的识别时，能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来，从而实现了视频中字幕信息的自动提取，大大简化了字幕在视频画面中的视频的字幕提取过程。

技术领域

本公开涉及文字识别领域，具体地，涉及一种视频字幕识别方法、装置、介质及电子设备。

背景技术

视频作为一种最为流行的媒体形式，通过网络和电视广泛传播。光学字符识别技术(OCR)作为图像文本提取技术已日趋成熟。视频中的文本检测与识别技术作为二者的结合，可以助力于视频检索与分类，可以在需要提取影视剧字幕时节约人力。目前虽然也有一些对于视频中的字幕进行文本识别的方法，但通常都是通过常规的文本识别得到一定的文本内容，后期仍需要再次对识别得到的文本进行复杂的整理才能够得到的精简的字幕文本，并且无法自动得到精简后的字幕文本中每一个字幕文本对应的时间信息。

发明内容

本公开的目的是提供一种视频字幕识别方法、装置、介质及电子设备，能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来，从而实现了视频中字幕信息的自动提取，大大简化了字幕在视频画面中的视频的字幕提取过程。

为了实现上述目的，本公开提供一种视频字幕识别方法，所述方法包括：

获取待处理视频中的多个目标视频帧；

识别所述多个目标视频帧中的每个目标视频帧中的字幕文本；

按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同；

将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。

可选地，所述识别所述多个目标视频帧中的每个目标视频帧中的字幕文本包括：

截取所述目标视频帧中出现字幕的目标图像；

获取所述目标图像中的字幕所对应的识别框；

对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本。

可选地，所述获取所述目标图像中的字幕所对应的识别框包括：