[发明专利]一种web资产检测的方法、装置、设备及可读存储介质有效
申请号: | 201911367919.3 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111143744B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 赵铁辉;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951;G06F16/901;G06F11/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 资产 检测 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种web资产检测的方法、装置、设备以及计算机可读存储介质,包括:获取web资产库中目标资产内容的body信息,根据body信息生成目标资产的当前simhash值;确定当前simhash值与目标资产的上一时间节点的simhash值的海明距离;判断海明距离是否小于等于预设距离阈值;若海明距离大于预设距离阈值,则判定目标资产的内容发生变更,并记录当前更新时间;判断当前更新时间至上一更新时间的时间间隔是否大于预设时间阈值;若时间间隔大于预设时间阈值,则将目标资产标记为僵尸站点。本发明所提供的方法、装置、设备以及计算机可读存储介质,提高了web资产内容变化检测的准确率。
技术领域
本发明涉及互联网检测技术领域,特别是涉及一种web资产检测的方法、装置、设备以及计算机可读存储介质。
背景技术
伴随着Internet的普及和业务发展,web网站资产也越来越多。我们对这些资产的统一维护和管理就显得非常重要。可以通过检测网站内容的变化,记录变化数据信息,确定网站的更新频率;利用网站的更新频率可以查找web网站资产中长期不更新的僵尸网站。
现有技术中可以通过计算web资产内容的hash值,来检测网站内容是否发生变化。若只是简单的md5或者sha等传统hash计算,则针对资产内容只是细微动态区别的资产,例如:含有日期控件等,现有资产检测算法会误以为资产内容发生了改变,导致资产内容更新检测的准确度较低;因此通过hash值检测web资产内容是否更新不便于差异分析。
综上所述可以看出,如何提高web资产内容变化检测的准确率是目前有待解决的问题。
发明内容
本发明的目的是提供一种web资产检测的方法、装置、设备以及计算机可读存储介质,以解决现有技术中通过传统hash值检测web资产内容是否更新的准确率较低的问题。
为解决上述技术问题,本发明提供一种web资产检测的方法,包括:获取web资产库中目标资产内容的body信息,根据所述body信息生成所述目标资产的当前simhash值;确定所述当前simhash值与所述目标资产的上一时间节点的simhash值的海明距离;判断所述海明距离是否小于等于预设距离阈值;若所述海明距离大于所述预设距离阈值,则判定所述目标资产的内容发生变更,并记录当前更新时间;判断所述当前更新时间至上一更新时间的时间间隔是否大于预设时间阈值;若所述时间间隔大于所述预设时间阈值,则将所述目标资产标记为僵尸站点。
优选地,所述获取web资产库中目标资产内容的body信息,根据所述body信息生成所述目标资产的当前simhash值包括:
利用爬虫技术获取所述目标资产内容的body信息,将所述body信息转换为多个加权特征向量;
利用hash算法确定每个加权特征向量对应的hash值;
将所述每个加权特征向量对应的hash值与权重进行组合,得到多个加权数串;
将所述多个加权数串进行合并,生成目标加权数组串,将所述目标加权数组串转换为hash值,得到所述目标资产的当前simhash值。
优选地,所述判断所述海明距离是否小于等于预设距离阈值后包括:
若所述海明距离小于等于3,则判定所述目标资产的内容未发生变更。
优选地,还包括:计算所述web资产库中每两个资产的simhash值之间的海明距离,将所述web资产库中simhash值之间的海明距离小于等于所述预设距离阈值的两个资产标记为相似资产,并对所述相似资产进行去重处理。
优选地,所述计算所述web资产库中每两个资产的simhash值之间的海明距离,将所述web资产库中simhash值之间的海明距离小于等于所述预设距离阈值的两个资产标记为相似资产,并对所述相似资产进行去重处理包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911367919.3/2.html,转载请声明来源钻瓜专利网。