[发明专利]视频字幕的处理方法、装置、设备和存储介质有效
| 申请号: | 202110168920.4 | 申请日: | 2021-02-07 |
| 公开(公告)号: | CN112995749B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 苏再卿;焦少慧;张清源;赵世杰;詹亘 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
| 主分类号: | H04N21/435 | 分类号: | H04N21/435;H04N21/439;H04N21/44;H04N21/4402;H04N21/485;H04N21/488;H04N21/8547;G10L15/22;G10L15/26;G06V20/62;G06T5/00;G06T7/13 |
| 代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 字幕 处理 方法 装置 设备 存储 介质 | ||
1.一种视频字幕的处理方法,其特征在于,包括:
确定原始视频中各视频帧的字幕区域,并识别所述字幕区域内的字幕信息,得到第一候选字幕;
对所述原始视频的音频信息进行语音识别,得到第二候选字幕;
根据所述第一候选字幕和所述第二候选字幕,生成目标字幕;
将所述目标字幕和所述原始视频的视频数据结合,生成包含所述目标字幕的目标视频;
所述识别所述字幕区域内的字幕信息,得到第一候选字幕,包括:
识别所述字幕区域内的字幕信息,得到第一候选字幕和所述第一候选字幕中各文字的第一置信度;
所述对所述原始视频的音频信息进行语音识别,得到第二候选字幕,包括:
对所述原始视频的音频信息进行语音识别,得到第二候选字幕和所述第二候选字幕中各文字的第二置信度;
对应地,所述根据所述第一候选字幕和所述第二候选字幕,生成目标字幕,包括:
根据所述第一置信度和所述第二置信度,对所述第一候选字幕和所述第二候选字幕逐字进行融合,得到目标字幕;
所述根据所述第一置信度和所述第二置信度,对所述第一候选字幕和所述第二候选字幕逐字进行融合,得到目标字幕,包括:
逐一比较所述第一候选字幕和所述第二候选字幕中同一位置上的文字的置信度;
将各位置上置信度最高的文字进行组合,形成融合字幕,将所述融合字幕确定为目标字幕;
所述将所述融合字幕确定为目标字幕,包括:
对所述融合字幕进行语义校验;
若校验通过,则将所述融合字幕确定为目标字幕;
若校验不通过,则对所述融合字幕进行修正,并将修正后的融合字幕确定为目标字幕。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标字幕和所述原始视频的视频数据结合,生成包含所述目标字幕的目标视频,包括:
消除所述原始视频的原始字幕,得到无字幕视频;
将所述目标字幕和所述无字幕视频的视频数据结合,生成包含所述目标字幕的目标视频。
3.根据权利要求2所述的方法,其特征在于,所述消除所述原始视频的原始字幕,得到无字幕视频,包括:
根据所述字幕区域的位置信息,擦除所述原始视频中各视频帧的所述字幕区域中的内容;
根据当前帧以及所述当前帧的相邻帧的图像信息,对所述当前帧中已擦除内容的字幕区域进行信息重建,直至所有视频帧处理完毕,得到无字幕视频。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
获取用户输入的字幕设置参数;
对应地,所述将所述目标字幕和所述原始视频的视频数据结合,生成包含所述目标字幕的目标视频,包括:
根据所述字幕设置参数对所述目标字幕进行处理;
将处理后的目标字幕和所述原始视频的视频数据结合,生成包含所述处理后的目标字幕的目标视频。
5.根据权利要求4所述的方法,其特征在于,所述字幕设置参数包括用于进行多语言字幕显示所需的参数。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
接收用户输入的对白剪辑指令;
根据所述对白剪辑指令和所述目标字幕对应的起止时间,对所述目标视频进行剪辑,得到对白集锦。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110168920.4/1.html,转载请声明来源钻瓜专利网。





