[发明专利]一种基于深度学习的视频字幕检测与识别方法及系统在审
申请号: | 201810690120.7 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108805102A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 孙宏亮;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06K9/40;G06K9/34 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频图像 形态学 视频字幕 文本区域 纹理特征 学习算法 去噪 计算机软件技术 受限玻尔兹曼机 背景区域 定位图像 二值图像 复杂背景 理论应用 区域定位 视频文本 文本图像 纹理图像 训练样本 增量学习 字符识别 再映射 中文字 检测 准确率 滤波 去除 视频 文本 学习 优化 | ||
1.一种基于深度学习的视频字幕检测与识别方法,其特征在于,所述于深度学习的视频字幕检测与识别方法包括:
(1)将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;
(2)将纹理特征作为训练样本,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习;学习过程中,用标记样本作为监督数据进行网络微调,构成深度学习网络DBN,并标记文本区域和背景区域的二值图像;
(3)利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像;
(4)再将文本图像进行二值化、灰度后续处理,送入到OCR字符识别系统进行字符识别。
2.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,将视频图像通过Gabor滤波器滤波中,利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,二维Gabor函数为:
g(x,y)=Kexp{-π[p2(x-x0)2+q2(y-y0)2]}
·exp{-2πj[u0(x-x0)+v0(y-y0)]}
傅里叶变换形式
式中K为Gauss核函数的幅度;(x0,y0)为高斯核函数的中心位置;(u0,v0)为调制频率的中心;(p,q)为Gauss核函数的尺度参数;
设Gauss包络函数的峰值位置(x0,y0)为(0,0),通过计算滤波参数p和q来选择Gabor滤波器;滤波器的滤波参数p和q通过下公式计算:
Uh和UI分别为纹理图像区域的高频率中心和低频率中心;T为方向数;M为尺度数;λ为Gabor滤波器的周期。
3.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,深度学习网络DBN学习方法包括:非监督学习用于每一层网络的预训练;每次用非监督学习只训练其中一层,将训练结果作为高一层的输入;用自顶而下的监督算法去调整所有层;
假设RBM模型中所有的节点都是随机二值(0,1)变量节点,同时假设全概率分布P(v,h)满足Boltzmann分布,在已知v的情况下,θ={W,a,b}为参数集合,可视节点和隐藏节点的偏置向量用a和b表示,则RBM在状态θ下的概率为
式中Z(θ)为归一化因子,-E(v,h;θ)为分配函数,在给定隐藏层的基础上,可视层的概率为P(v|h),通过自底向上将多个受限玻尔兹曼机组合构建。
4.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,利用受限玻尔兹曼机RBM逐层对纹理图像进行增量学习中,包括:
DBN网络需要进行训练以获得最佳权值,先对纹理特征图像采用RBM进行逐层增量学习,应用最大似然估计法不断地调整网络中权值,使RBM达到能量平衡,再用监督数据,对整个DBN网络进行微调;在非监督学习过程中,DBN网络中每一个状态值都对应一层的结点,计算的输入输出数据都是对应结点状态值为1的概率值,而H0层的输入向量是每个文字区域的纹理样本,通过交替的吉布斯采样后,作为DBN网络的输入。
5.如权利要求1所述的基于深度学习的视频字幕检测与识别方法,其特征在于,将图像进行二值化、灰度后续处理,送入到OCR字符识别系统进行字符识别,包括:
视频图像文本区域定位从最底层特征映射出相应的顶层特征,依次层层映射,直到得到最顶层的结果;
通过对DBN网络及经形态学处理后文本区域,进行二值化处理,去除与边界相连的区域,将文本域背景黑白反转,再送到OCR软件进行识别。
6.一种实现权利要求1~5任意一项所述基于深度学习的视频字幕检测与识别方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810690120.7/1.html,转载请声明来源钻瓜专利网。