[发明专利]高性能IP网络中个人标识信息识别系统及方法有效
申请号: | 201711474953.1 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108199878B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 刘翼;嵩天 | 申请(专利权)人: | 北京理工大学;延安大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/06 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 性能 ip 网络 个人 标识 信息 识别 系统 方法 | ||
1.网络个人标识信息识别方法,其特征在于:通过以下步骤实现:
步骤1:IP网络收集到的流量以PCAP格式输入到网络个人标识信息识别系统,包括特征提取模块、数据过滤与整形模块、算法执行模块和优化模块;
步骤2:网络个人标识信息识别系统中的特征提取模块提取网络特征字段,得到一个五维的数据组;
步骤3:数据过滤与整形模块对步骤2输出的五维的数据组进行过滤与整形;
步骤4:算法执行模块建立用户行为树模型,利用用户行为树的性质计算出函数VF与函数UVF,然后采用函数VF与函数UVF的计算结果进行两次检测,最后输出PII-DK与PII-VALUE两个列表,具体为:
步骤4.1:用相同的DOMAIN-KEY的数据建立用户行为树模型;
其中,用户行为树模型的根为DOMAIN-KEY、第二层为USER、第三层为VALUE,叶子节点为FREQUENCY;
步骤4.2:计算步骤4.1用户行为树模型中每个用户子树下节点的数量,若节点数量为1且FREQUENCY大于1,则函数VF的值为1,否则VF=0;
步骤4.3:满足VF=1的数据继续计算各用户节点的孩子节点VALUE是否相同,如果与其他VALUE都不同则UVF=1,否则UVF=0;
步骤4.4:满足VF=UVF=1的DOMAIN-KEY组成PII-DK列表,并将列表中具有相同DOMAIN-KEY的VALUE字段的值构成PII-VALUE列表;
步骤5:优化模块进行校验和扩散,具体为:
计算步骤4.4中PII-VALUE列表中的每个VALUE值对应的用户数,若只对应1个用户,则通过校验,否则校验失败,将包含有校验失败的VALUE值的DOMIAN-KEY从PII-DK中删除;
数据经过校验后,将PII-DK列表内的所有DOMAIN-KEY记录包含的VALUE提取出来,建立一个PII-VALUE列表,然后使用这些VALUE值重新计算数据过滤和整形前的数据集,并且DOMAIN-KEY不在PII-DK列表内,扩散过程找出新的DOMAIN-KEY加入到PII-DK列表当中,直到PII-DK没有更新为止;
步骤6:输出PII-DK列表;
至此,经过步骤1到步骤6,完成了高性能IP网络中个人标识信息识别方法。
2.根据权利要求1所述的网络个人标识信息识别方法,其特征在于:步骤3,具体为:
步骤3.1:按照域名和IP地址的命名规则过滤掉不符合规则的数据组;
步骤3.2:删除数据组中VALUE值少于K个字符的值;
其中,K的取值范围为自然数;
步骤3.3:删除数据组中相同DOMAIN和KEY中少于X条记录的样本;
其中,X的取值范围为自然数;
步骤3.4:将数据组中所有符号的URL编码转化为UTF-8编码;
步骤3.5:将数据组中所有的大写字母转换为小写字母;
步骤3.6:移除数据组中的默认值和干扰值;
步骤3.7:利用最长前缀匹配算法聚合相同DOMAIN与VALUE字段内的值,即将相同的DOMAIN和KEY数据中,如果VALUE字段的字符串包含在其他VALUE字符串内,则将它们合并为长度较长的VALUE;
步骤3.8:将DOMAIN字段中所有的三级以上的域名按照三级域名聚合,去除一、二级域名;
步骤3.9:将DOMAIN字段中所有IP地址去掉端口号,并按照相同C类地址的网络号聚合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;延安大学,未经北京理工大学;延安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711474953.1/1.html,转载请声明来源钻瓜专利网。