[发明专利]一种视频字幕时间对齐模型训练方法及系统在审
| 申请号: | 202111470819.0 | 申请日: | 2021-12-03 |
| 公开(公告)号: | CN114222193A | 公开(公告)日: | 2022-03-22 |
| 发明(设计)人: | 程梓益 | 申请(专利权)人: | 北京影谱科技股份有限公司 |
| 主分类号: | H04N21/488 | 分类号: | H04N21/488;H04N21/435;G06V30/148;G06V30/19 |
| 代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 郑兴旺 |
| 地址: | 100125 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 字幕 时间 对齐 模型 训练 方法 系统 | ||
本申请公开了一种视频字幕时间对齐模型训练方法及系统,该方法首先获取带字幕的原始视频集以及描述文本集;将原始视频集与对应的描述文本集依次通过公共子串算法进行匹配,确定出描述文本集中各个段落所对应的OCR识别结果;根据每段文本以及该段文本对应的OCR识别结果形成数据集,并对数据集进行标注得到训练集;构建基于文本语义相似度匹配的视频字幕时间对齐模型,利用训练集对视频字幕时间对齐模型进行训练,得到训练完成的视频字幕时间对齐模型。可以看出,本申请实施例提供的视频字幕时间对齐模型解决了由于错别字,生僻字以及视频背景干扰的存在而产生的视频字幕时间匹配问题,相比于现有公共子串算法能够更加准确。
技术领域
本发明涉及多媒体技术领域,特别涉及一种视频字幕时间对齐模型训练方法及系统。
背景技术
随着互联网技术和多媒体技术的不断发展,视频作为信息的载体之一,受到众多用户的青睐。为了更好地展示视频内容,在用户观看视频的时候,通常会同步显示与视频所对应的字幕,并且与视频字幕相对应的还会有描述文本,然而描述文本通常分为几段甚至十几段文本。
现有技术在对描述文本中的段落与视频字幕进行时间匹配时,常见的做法是用OCR识别视频中当前帧的文字并记录当前时间,然后与对应的文本匹配,但是因为错别字,生僻字的存在,以及视频背景的干扰,使得常见的做法不能自动化地完成该任务。
发明内容
基于此,本申请实施例提供了一种视频字幕时间对齐模型训练方法及系统,可以提高视频字幕与描述文本进行时间匹配的准确性。
第一方面,提供了一种视频字幕时间对齐模型训练方法,该方法包括:
获取带字幕的原始视频集以及描述文本集,其中,原始视频集中包括多个原始视频,每个原始视频对应所述描述文本集中的一个描述文本;所述原始视频中字幕的内容与所述描述文本集中对应的描述文本的内容相对应;
将原始视频集与对应的描述文本集依次通过公共子串算法进行匹配,确定出所述描述文本集中各个段落所对应的OCR识别结果;所述OCR识别结果用于表征原始视频集中字幕内容;
根据每段文本以及该段文本对应的OCR识别结果形成数据集,并对所述数据集进行标注得到训练集;
构建基于文本语义相似度匹配的视频字幕时间对齐模型,利用所述训练集对所述视频字幕时间对齐模型进行训练,得到训练完成的视频字幕时间对齐模型。
可选地,利用所述训练集对所述视频字幕时间对齐模型进行训练,得到训练完成的视频字幕时间对齐模型,包括:
将每段文本和OCR识别结果分别输入到深度语言模型中进行处理后得到第一文本向量和第二文本向量;
将所述第一文本向量和所述第二文本向量进行拼接后输入到多层感知机后得到当前轮次的训练结果,并将当前轮次的训练结果与标注信息进行比对,根据比对结果调整模型参数,当模型输出结果与标注结果的差异小于预设阈值时得到训练完成的视频字幕时间对齐模型。
可选地,所述深度语言模型至少包括BERT-chinese模型或ERNIE模型。
可选地,将原始视频集与对应的描述文本集依次通过公共子串算法进行匹配,确定出所述描述文本集中各个段落所对应的OCR识别结果,包括:
获取原始视频以及对应的描述文本,所述描述文本的内容与所述原始视频中字幕的内容相对应;
根据预设的取帧间隔时间截取所述原始视频中的字幕区域得到字幕区域图像集,其中,所述字幕区域图像集包括在所述原始视频中对应的时间戳;
将所述字幕区域图像集输入到OCR识别模型进行OCR识别得到带有时间戳的OCR识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111470819.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种绿色建筑预埋电气管线系统
- 下一篇:一种桑干细胞的制备方法及应用





