[发明专利]一种基于深度学习的视频字幕检测与识别方法及系统在审

申请号：	201810690120.7	申请日：	2018-06-28
公开（公告）号：	CN108805102A	公开（公告）日：	2018-11-13
发明（设计）人：	孙宏亮;程国艮	申请（专利权）人：	中译语通科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06K9/40;G06K9/34
代理公司：	北京万贝专利代理事务所(特殊普通合伙) 11520	代理人：	马红
地址：	100040 北京市石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于计算机软件技术领域，公开了一种基于深度学习的视频字幕检测与识别方法及系统，将深度学习算法理论应用于视频文本区域定位与识别过程，将视频图像通过Gabor滤波器滤波，获得视频图像文本中文字的纹理特征；将纹理特征作为训练样本，利用受限玻尔兹曼机逐层对纹理图像进行增量学习，利用形态学方法对二值图像去噪处理，再映射到定位图像上，得到仅包含文本区域而去除背景区域的文本图像。本发明采用2D‑Gabor滤波器与深度学习算法相结合的方法，实现对复杂背景视频中文本区域的定位，并优化了基于形态学的视频图像去噪方法，再通过OCR系统实现字符的识别,提高了OCR系统字符识别的准确率。
搜索关键词：	视频图像形态学视频字幕文本区域纹理特征学习算法去噪计算机软件技术受限玻尔兹曼机背景区域定位图像二值图像复杂背景理论应用区域定位视频文本文本图像纹理图像训练样本增量学习字符识别再映射中文字检测准确率滤波去除视频文本学习优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习的视频字幕检测与识别方法，其特征在于，所述于深度学习的视频字幕检测与识别方法包括：(1)将视频图像通过Gabor滤波器滤波，获得视频图像文本中文字的纹理特征；(2)将纹理特征作为训练样本，利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习；学习过程中，用标记样本作为监督数据进行网络微调，构成深度学习网络DBN，并标记文本区域和背景区域的二值图像；(3)利用形态学方法对二值图像去噪处理，再映射到定位图像上，得到仅包含文本区域而去除背景区域的文本图像；(4)再将文本图像进行二值化、灰度后续处理，送入到OCR字符识别系统进行字符识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司，未经中译语通科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810690120.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于深度学习的寄生虫虫卵的识别方法
下一篇：图像处理方法和装置、电子设备、计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的视频字幕检测与识别方法及系统在审

专利文献下载