[发明专利]一种面向视频会议的文本区域修复系统和方法在审
| 申请号: | 202111571085.5 | 申请日: | 2021-12-21 |
| 公开(公告)号: | CN114240791A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 沈奇威;王雪岩;王晶;李炜;张磊 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06T5/00 | 分类号: | G06T5/00;G06V20/40;G06N3/08;G06N3/04;G06V10/82 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 视频会议 文本 区域 修复 系统 方法 | ||
1.一种面向视频会议的文本区域修复系统,其特征在于:所述系统包括如下模块:
文本区域的检测与裁剪模块:该模块的功能是首先对视频会议场景下的图像进行预处理,然后检测该图像的文本区域,得到文本区域检测框的四角顶点坐标,最后按照所得到的四角顶点坐标将文本区域剪裁出来;
文本区域的修复与粘贴模块:该模块的功能是首先生成所述文本区域的二进制掩码,该二进制掩码与所述的文本区域进行连接,得到所述文本区域的RGBM图像;对所得到的RGBM图像进行超分辨率修复,得到修复后的清晰的文本区域;把所得到的清晰的文本区域粘贴回原视频会议场景下的图像。
2.根据权利要求1所述的一种面向视频会议的文本区域修复系统,其特征在于:所述的文本区域的检测与裁剪模块包括如下子模块:
图像空间特征提取子模块:该子模块的功能是通过深度学习网络提取视频会议场景下的图像的空间特征;具体过程是:采用ResNet网络对视频会议场景下的图像进行深层次的空间特征提取,得到第五个卷积block的第三层卷积特征图Conv5_3和第四个卷积Block的第三个卷积层特征图Conv4_3,再将所得到特征图Conv5_3经过反卷积和特征图Conv4_3进行融合,得到所述会议场景下的图像的空间特征图,该空间特征图大小是W*H*C,W表示空间特征图的宽,H表示空间特征图的高,C表示空间特征图的特征通道数;
图像序列特征提取子模块:该子模块的功能是通过深度学习网络提取视频会议场景下的图像的序列特征;具体过程是:使用3*3的卷积核对前述得到的空间特征图进行卷积操作,步长为16,然后将卷积操作后所获得的结果排列为3*3*C的特征向量;将该特征向量输入到BiLSTM网络中,经过最后的全连接层得到512维的所述会议场景下的图像的序列特征图;
文本区域检测子模块:该子模块的功能是通过深度学习网络提取视频会议场景下的图像的文本区域检测框的四角顶点坐标;具体过程是:将前述得到的会议场景下的图像的序列特征图输入到RPN网络,得到文本建议text proposal,然后采用文本线构造法连接成一个文本区域检测框,最后输出所检测到的文本区域检测框的四角顶点坐标;
文本区域裁剪子模块:该子模块的功能是根据前述所得到的文本区域检测框的四角顶点坐标,把文本区域从所述的视频会议场景下的图像中剪裁出来。
3.根据权利要求1所述的一种面向视频会议的文本区域修复系统,其特征在于:所述的文本区域的修复与粘贴模块包括如下子模块:
文本区域RGBM图像生成子模块:该子模块的功能是将所裁剪出来的文本区域生成该文本区域的RGBM图像;具体过程是:将所裁剪出来的文本区域图像的R、G、B三个通道进行加权平均,得到每个像素点对应的灰度值,灰度值采用二进制8位表示,灰度值从0到255总计256个灰度值,对应黑色到白色;然后对所有像素点的灰度值求平均值,将其作为一个标准值;依次对每个像素点的灰度值和标准值进行比较,如果大于标准值,将该点的灰度值置为0,如果小于标准值,将灰度值置为255,从而生成所述文本区域图像的二进制掩码;将文本区域图像与所述的二进制掩码连接生成所述文本区域的RGBM图像;
文本区域超分辨率修复子模块:该子模块的功能是根据所述的文本区域RGBM图像,通过深度学习网络对文本区域进行超分辨率修复;
文本区域粘贴子模块:该子模块的功能是将修复后的文本区域按照文本区域检测框的四角顶点坐标,粘贴回原视频会议场景下的图像中。
4.根据权利要求3所述的一种面向视频会议的文本区域修复系统,其特征在于:所述的文本区域超分辨率修复子模块进一步包括如下子模块:
信息提取和增强子模块:该子模块的功能是通过深度学习网络分层提取所述文本区域RGBM图像的低频特征信息,最后得到该图像的空间特征和序列特征;该子模块第一层是卷积层,后面由八个相同的网络块顺序连接而成,每个网络块由残差网络单元和BiLSTM单元顺序连接构成;
重建子模块:该子模块的功能是通过亚像素卷积,集成所述文本区域RGBM图像的全局特征和局部特征,将低频特征信息转换为高频特征信息;
信息细化子模块:该子模块的功能是细化所述重建子模块得到的高频特征信息,以得到文本区域的更加精确的超分辨率修复图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111571085.5/1.html,转载请声明来源钻瓜专利网。





