[发明专利]视频字幕识别方法、装置、介质及电子设备在审
申请号: | 202110277906.8 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113052169A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 马天泽;王铭喜;马超 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 王晓霞 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 字幕 识别 方法 装置 介质 电子设备 | ||
本公开涉及一种视频字幕识别方法、装置、介质及电子设备,包括:获取待处理视频中的多个目标视频帧;识别多个目标视频帧中的每个目标视频帧中的字幕文本;按照多个目标视频帧在待处理视频中的顺序依次判断相邻的目标视频帧中的字幕文本是否相同;将同一字幕文本首次出现和最后出现时分别对应的目标视频帧的时间戳确定为同一字幕文本的起始时间和终止时间。通过上述技术方案,在对该待处理视频中的目标视频帧进行字幕文本的识别时,能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来,从而实现了视频中字幕信息的自动提取,大大简化了字幕在视频画面中的视频的字幕提取过程。
技术领域
本公开涉及文字识别领域,具体地,涉及一种视频字幕识别方法、装置、介质及电子设备。
背景技术
视频作为一种最为流行的媒体形式,通过网络和电视广泛传播。光学字符识别技术(OCR)作为图像文本提取技术已日趋成熟。视频中的文本检测与识别技术作为二者的结合,可以助力于视频检索与分类,可以在需要提取影视剧字幕时节约人力。目前虽然也有一些对于视频中的字幕进行文本识别的方法,但通常都是通过常规的文本识别得到一定的文本内容,后期仍需要再次对识别得到的文本进行复杂的整理才能够得到的精简的字幕文本,并且无法自动得到精简后的字幕文本中每一个字幕文本对应的时间信息。
发明内容
本公开的目的是提供一种视频字幕识别方法、装置、介质及电子设备,能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来,从而实现了视频中字幕信息的自动提取,大大简化了字幕在视频画面中的视频的字幕提取过程。
为了实现上述目的,本公开提供一种视频字幕识别方法,所述方法包括:
获取待处理视频中的多个目标视频帧;
识别所述多个目标视频帧中的每个目标视频帧中的字幕文本;
按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同;
将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。
可选地,所述识别所述多个目标视频帧中的每个目标视频帧中的字幕文本包括:
截取所述目标视频帧中出现字幕的目标图像;
获取所述目标图像中的字幕所对应的识别框;
对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本。
可选地,所述获取所述目标图像中的字幕所对应的识别框包括:
通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框,其中,所述字幕文本检测模型为预先训练好的深度学习模型。
可选地,所述通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框包括:
通过所述字幕文本检测模型确定所述目标图像中的所有识别框,以及与所述所有识别框分别对应的检测得分,所述检测得分表征所述识别框的置信度;
将所述检测得分高于第一预设阈值的识别框确定为所述目标图像中的所述字幕所对应的所述识别框。
可选地,所述对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本包括:
通过字幕文本识别模型对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本,其中,所述字幕文本识别模型为预先训练好的深度学习模型。
可选地,所述字幕文本识别模型的训练数据中包括带有空格标记的训练数据、中文训练数据、英文训练数据、带有中文标点符号标记的训练数据和带有英文标点符号标记的训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110277906.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音量调节方法及装置
- 下一篇:车载太阳能发电装置及电动车辆