[发明专利]通过IP巡检网站、并判断网站类别的方法、系统、设备及介质在审

申请号：	202110222311.2	申请日：	2021-02-28
公开（公告）号：	CN113157998A	公开（公告）日：	2021-07-23
发明（设计）人：	张乐平;顾明娟;吴一超;卞豪	申请（专利权）人：	江苏匠算天诚信息科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/958;G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏
地址：	213000 江苏省常***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通过 ip 巡检网站判断类别方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种通过IP巡检网站、并判断网站类别的方法，其特征在于，包括：

输入IP列表，启动爬虫扫描，抓取目标网站的网页内容；

判断网站是否可访问，将结果记录到数据库；

判断网页内容里是否有备案号，并且备案号是否可查，将结果记录到数据库；

提取网页中的有效文字和图片；

对提取的有效文字和图片进行分类标注；

针对文字和图片数据构建并训练网络模型，训练结束后将模型参数写入模型库；

将网站中的网页爬出来的图片、文字分别作为各自对应模型的输入，得到网页中图片、文字的分类预测结果，设定图像分类结果和文字分类结果的权重；统计网站下所有图片和文字的预测结果，产生图片分类的分布、文字分类的分布；通过计算得分获得最终的分类结果。

2.根据权利要求1所述的方法，其特征在于，通过python爬虫框架scrapy结合javascript渲染服务splash抓取目标网站的网页内容；

对提取的有效文字和图片进行分类标注，具体为：以网页为分组维度，图片和文字联合在一起标注，标注成预设的分类列表里的某个或某几个类别。

3.根据权利要求1所述的方法，其特征在于，针对图片数据，使用VGG NET模型；针对文字数据，使用textCNN模型，激活函数:ReLu，卷积核大小：14,15,16。

4.根据权利要求1或3所述的方法，其特征在于，图片预测在输入模型之前进行优化处理，将输入的图片调整大小、填充成n张图片组成一个批次，进行批量预测，然后取第二层的输出作为结果的判定，产生n个形状为(C,J,K)的张量，取某分类值的pmap进行综合评分判定；

最终pmap激活图矩阵为

P＝(P1+P2+...+Pn)/n

然后再求取P矩阵的亮点连通图，如果某分类的亮块连通图的面积大于整体面积的50％，则视为某个类别的图片。

5.根据权利要求4所述的方法，其特征在于，网络模型训练时，对图片预处理：将原图增广出8张图，提取对应的二维(r,g,b)三通道向量，图片的高和宽是分别是224和224，得到形状为(3,224,224)的张量；

对文字预处理：将收集的文字通过word2vector转换成词向量，每个词用9维的词向量表示，形成n*9的矩阵。

6.根据权利要求1所述的方法，其特征在于，模型训练方法如下：

将数据集中的图片矩阵输入模型进行梯度下降训练，训练结束后将VGG NET的模型参数写入模型库；

将数据集中的文字矩阵输入textCNN进行梯度下降训练，训练结束后将模型参数写入模型库。

7.根据权利要求1所述的方法，其特征在于，设定图像分类结果权重是a，文字分类结果的权重是b，a+b＝1；统计一个网站下所有图片和文字的预测结果,产生一个图片分类的分布、文字分类的分布，统计出分类列表里图片分类计数最高的Y_n1，计数为C_n1；统计出分类列表里文字计数分类最高的Y_n2，计数为C_n2；最终计算得分：

r_p＝C_n1·a

r_t＝C_n2·b

其中r_p、r_t为图片、文字的得分；

以分类Y_n1、Y_n2中得分高的为最终分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏匠算天诚信息科技有限公司，未经江苏匠算天诚信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110222311.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种燃气锅炉富氧燃烧供气方法及装置
下一篇：时钟频率异常偏差检测电路

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过IP巡检网站、并判断网站类别的方法、系统、设备及介质在审

专利文献下载