[发明专利]基于计算机视觉的屏幕浏览场景分类方法有效

申请号：	202110747198.X	申请日：	2021-07-02
公开（公告）号：	CN113515633B	公开（公告）日：	2023-08-08
发明（设计）人：	柯逍;许培荣	申请（专利权）人：	福州大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/045;G06N3/0464;G06N3/047;G06N3/08
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	丘鸿超;蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于计算机视觉屏幕浏览场景分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于计算机视觉的屏幕浏览场景分类方法，包括以下步骤：步骤S1：通过自然场景训练集训练文本检测网络模型；步骤S2：采用训练好的文本检测器获得文本区域，并通过文本训练集训练识别网络；步骤S3：采用训练好的文本识别器识别文本区域，并通过新闻标题训练集训练文档分类模型。步骤S4：采用训练好文本分类器分类屏幕浏览场景类别，并采用检测和图像处理信息特征做二分类。该方法能够有效地对屏幕浏览画面进行组成上和内容上的分类。

技术领域

本发明属于图像处理与深度学习技术领域，尤其涉及一种基于计算机视觉的屏幕浏览场景分类方法。

背景技术

智能手机和PC当前拥有巨大的存量市场，其使用状态中的屏幕本身也蕴含着大量的信息。

考虑到不是任何的场景都能够通过连接电子设备直接读取其后台运行的信息，通过屏幕信息的读取再进行分类等分析处理在很多情况下都有需求。但这一工作过程相对较难实现，通过人工来完成则过于低效。

发明内容

针对现有技术的空白，本发明提出了一种基于计算机视觉的屏幕浏览场景分类方法，基于以下步骤：步骤S1：通过自然场景训练集训练文本检测网络模型；步骤S2：采用训练好的文本检测器获得文本区域，并通过文本训练集训练识别网络；步骤S3：采用训练好的文本识别器识别文本区域，并通过新闻标题训练集训练文档分类模型。步骤S4：采用训练好文本分类器分类屏幕浏览场景类别，并采用检测和图像处理信息特征做二分类。该方法能够有效地对屏幕浏览画面进行组成上和内容上的分类。

本发明具体采用以下技术方案：

一种基于计算机视觉的屏幕浏览场景分类方法，其特征在于，包括以下步骤：

步骤S1：通过自然场景训练集训练文本检测网络模型；

步骤S2：采用训练好的文本检测器获得文本区域，并通过文本训练集训练识别网络；

步骤S3：采用训练好的文本识别器识别文本区域，并通过新闻标题训练集训练文档分类模型；

步骤S4：采用训练好文本分类器分类屏幕浏览场景类别，并采用检测和图像处理信息特征做二分类。

进一步地，步骤S1具体包括以下步骤：

步骤S11：获取公开的自然场景文本检测训练集，并获得训练数据的相关标注；

步骤S12：采用16层的Mobilenet_v3作为特征提取主干网络，并将第4个卷积核用2个3×3的卷积核代替，设置步长为1，删除第6个和第7个5×5卷积核，使用5×5卷积核代替中间卷积层，并设置步长为2，最后接上1×1卷积核；

步骤S13：采用步骤S12中的Mobilenet_v3替代DBNet分割检测网络的特征提取主干，通过5层FPN结构进一步融合图像特征，并在第1层卷积层与最后一个上采用的1/4特征图建立一条shortcut，最终输出融合特征图；

步骤S14：采用可微二值化将二值化过程加入网络一起优化，对提取融合后的特征图预测概率图，所述可微二值化的计算公式如下：

其中为生成的近似二值图，T为阈值特征图，P为概率图，e为自然指数；