[发明专利]一种敏感数据接口爬虫识别方法及装置在审
申请号: | 202111100833.1 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113821754A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 葛胜利;魏国富;夏玉明 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F21/55;H04L29/06;H04L29/08 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感数据 接口 爬虫 识别 方法 装置 | ||
1.一种敏感数据接口爬虫识别方法,其特征在于,所述方法包括以下步骤:
步骤一:获取网站的web访问日志;
步骤二:根据web访问日志对爬虫进行识别;
步骤三:判断爬虫类型;
步骤四:按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容,并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;
步骤五:提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;
步骤六:使用敏感数据发现技术识别文本关键词结果中是否存在敏感信息,并输出对应的结果。
2.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述web访问日志包括请求的时间、IP地址、用户身份信息、sessionid、requestbody、responbody、method、status,用户身份信息包括账号、cookie、uuid。
3.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤二中采用基于用户行为序列的异常检测方法或者规则引擎方法识别爬虫。
4.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤三中爬虫类型包括修改url中的参数进行页面切换或者相同url通过修改POST内容请求传不同参数进行页面切换。
5.根据权利要求4所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤四包括:
步骤401:按照不同的爬虫类型使用爬虫的参数向网站发起Request请求,请求中包含额外的headers信息,从而进行爬虫请求模拟;
步骤402:对爬虫访问的网站进行页面解析,获取网站页面返回的信息,得到请求响应的内容;
步骤403:按照请求url归集请求响应的内容,如果是通过修改url中的参数进行页面切换模式的爬虫地址,则保留爬虫地址的非参数部分,作为归集域名,如果通过修改POST内容请求传不同参数进行页面切换模式的爬虫地址,直接使用爬虫地址的域名作为归集域名;将网站返回的多个文本部分按照归集域名分组进行存储。
6.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤五包括:
通过公式
计算词语频率,提取存储的文本中词语频率超过阈值的词语作为特征数据,每个域名下的文本按照词语频率对应提取出重要链接地址、文本关键词结果;其中,ni,j表示词语ti在文本j中出现的次数,表示文本j中所有词语频词和,表示语料库中所有词语频数之和,nti表示词语ti在语料库中出现的总频数。
7.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述敏感信息包括手机号码、姓名、地址、车牌号、身份证号码。
8.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,还包括步骤七:
对步骤六识别出的具有敏感数据接口的爬虫统计url归集请求数量、访问速率、请求IP地址个数、IP访问url数量、请求useragent个数、返回200数量、访问Referer数量、访问Method类型、url涉敏感数据类型,根据统计结果输出爬虫风险等级以及攻击类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111100833.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:地埋式一体化污水处理设备
- 下一篇:一种带乐谱架与乐器支架的琴盒