[发明专利]一种视频中字幕字符的识别方法及装置有效

申请号：	202010182005.6	申请日：	2020-03-16
公开（公告）号：	CN111414908B	公开（公告）日：	2023-08-29
发明（设计）人：	杨杰;宋施恩;金义彬;肖恺吟;卢海波	申请（专利权）人：	湖南快乐阳光互动娱乐传媒有限公司
主分类号：	G06V20/62	分类号：	G06V20/62;G06V30/148;G06V30/166;G06N3/0464;G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	林哲生
地址：	410003 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频字幕字符识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频中字幕字符的识别方法，其特征在于，包括：

获取原始视频帧，并裁剪掉所述原始视频帧的上部预设区域，得到第一预设尺寸的待识别视频帧；

将所述待识别视频帧输入到字幕位置检测模型中进行处理，得到字幕在所述待识别视频帧中的位置，所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的；

根据字幕在所述待识别视频帧中的位置，对所述待识别视频帧进行裁剪，并将裁剪后得到的图像的尺寸调整为第二预设尺寸，得到字幕图像；

将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的，所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层，其中，所述卷积层包括densenet网络结构，以替换CRNN模型中的基础网络结构backbone，1*1卷积层替换CRNN模型中的循环层；

其中，所述将所述字幕图像输入到字符识别模型中进行处理，得到所述字幕图像的字符识别结果，包括：

将所述字幕图像输入到所述字符识别模型中的所述卷积层，使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取，并将提取到的特征发送到所述1*1卷积层，使所述1*1卷积层进行特征融合得到特征图，将特征图的尺寸调整为CRNN模型中循环层的输出尺寸，并将调整后的特征图发送到所述转录层，使所述转录层对特征图进行处理，得到所述字幕图像的字符识别结果。

2.根据权利要求1所述的方法，其特征在于，生成所述第一预设尺寸的训练样本，包括：

获取视频帧集合，所述视频帧集合包括预设数量的视频帧；

裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域，得到背景图集合；

在预设字符库中随机提取所述预设数量的字符，所述预设数量的字符的长度在预设长度范围内；

在预设字体库中随机提取所述预设数量的字体；

分别将所述预设数量的字体叠加到所述预设数量的字符中，得到所述预设数量的字幕；

分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中，并记录每个字幕在相应背景图中的位置，得到包含字幕的图像集合；

将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸，得到所述第一预设尺寸的训练样本。

3.根据权利要求2所述的方法，其特征在于，生成所述第二预设尺寸的训练样本，包括：

在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后，记录每个背景图中相应字幕的字符标签；

将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸，得到所述第二预设尺寸的训练样本，所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。

4.根据权利要求2所述的方法，其特征在于，所述预设字符库包括中文字符、英文字符、数字字符和符号。