[发明专利]基于计算机视觉的屏幕浏览场景分类方法有效
| 申请号: | 202110747198.X | 申请日: | 2021-07-02 |
| 公开(公告)号: | CN113515633B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 柯逍;许培荣 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/045;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 丘鸿超;蔡学俊 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 计算机 视觉 屏幕 浏览 场景 分类 方法 | ||
1.一种基于计算机视觉的屏幕浏览场景分类方法,其特征在于,包括以下步骤:
步骤S1:通过自然场景训练集训练文本检测网络模型;
步骤S2:采用训练好的文本检测器获得文本区域,并通过文本训练集训练识别网络;
步骤S3:采用训练好的文本识别器识别文本区域,并通过新闻标题训练集训练文档分类模型;
步骤S4:采用训练好文本分类器分类屏幕浏览场景类别,并采用检测和图像处理信息特征做二分类;
步骤S1具体包括以下步骤:
步骤S11:获取公开的自然场景文本检测训练集,并获得训练数据的相关标注;
步骤S12:采用16层的Mobilenet_v3作为特征提取主干网络,并将第4个卷积核用2个3×3的卷积核代替,设置步长为1,删除第6个和第7个5×5卷积核,使用5×5卷积核代替中间卷积层,并设置步长为2,最后接上1×1卷积核;
步骤S13:采用步骤S12中的Mobilenet_v3替代DBNet分割检测网络的特征提取主干,通过5层FPN结构进一步融合图像特征,并在第1层卷积层与最后一个上采用的1/4特征图建立一条shortcut,最终输出融合特征图;
步骤S14:采用可微二值化将二值化过程加入网络一起优化,对提取融合后的特征图预测概率图,所述可微二值化的计算公式如下:
其中为生成的近似二值图,T为阈值特征图,P为概率图,e为自然指数;
步骤S15:得到概率图、二值化图和阈值图后,通过二元交叉熵计算概率图和二值化图损失和L1距离计算阈值图损失,损失函数增加对概率图损失的权重系数,在不同场景选取合适的权重系数以获得更好的稳定性,定义如下:
L=k×Ls+α×Lb+β×Lt
其中Ls、Lb、Lt分别为概率图、二值化图、阈值图的损失,k、α、β分别为概率图、二值化图、阈值图的权重系数;
步骤S2具体包括以下步骤:
步骤S21:将步骤S1中训练好的文本检测器作为检测模型,由概率图产生文本区域包围盒;
步骤S22:采用11层的Mobilenet_v3作为特征提取主干网络,并将第5和第6个5×5卷积核替换成3×3卷积核,并设置步长为2,添加一层1×2平均池化层,接上1×1卷积核,最终输出图像卷积特征图;
步骤S23:设D={d1,d2,...,dN}为屏幕图像中提取的文本区域,di为第i个文本区域,对上一步卷积后特征做序列化处理后的序列化特征设为xi,先输入一层全连接层,再输入LSTM循环神经网络,与最后一个全连接层W的第j列作点积,得到第j个类别的分数zi,j,并输入到Softmax激活函数中生成分类概率Pri,j,其计算公式如下:
其中C为总的类别数量,tp为不同类别的下标;
步骤S24:采用CTC解码器转录序列,计算CTC路径损失函数后,利用梯度下降与反向传播算法优化识别网络;
步骤S3具体包括以下步骤:
步骤S31:采用训练好的文本识别网络识别文本区域中文本,通过预处理合并成段文本,将剩下文本组成字典序数据迭代器;
步骤S32:采用TextCNN结构为分类模型,其中采用4层卷积核大小分别为2,3,4,5的二维卷积层;然后在全连接层后添加Relu激励函数,接着添加两层全连接层并利用Softmax生成分类概率;
步骤S33:采用交叉熵损失计算每个类别损失Lc,具体如下:
其中s为当前类得分,tc为总的类别数量,tk为不同类别下标,stk为不同类别得分;
然后利用梯度下降与反向传播算法更新网络参数;
步骤S4具体包括以下步骤:
步骤S41:采用各种类别的屏幕浏览画面图像集作为测试训练集并进行标注;
步骤S42:采用文本检测器估算文本比重Rt,采用文本识别器统计字串长度text_L,通过单峰自适应二值化寻找屏幕中图片轮廓,然后通过感兴趣区域直方图统计过滤标签轮廓,估计图片比重Rp,以及剩余比重Rb;
步骤S43:采用多层全连接层接BatchNorm和Relu激励函数,最后采用Softmax输出分类概率形成的二分类模型;利用训练集训练后,对S42中特征输入网络分析屏幕浏览画面的组成;
步骤S44:采用文本检测识别器抽取不同大小尺寸图像文本分别利用文档分类器分类屏幕的内容类别后融合多层次预测结果,最终输出屏幕浏览画面中的内容类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110747198.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工件尺寸的测量方法及装置
- 下一篇:一种随钻注水压裂装置及方法





