[发明专利]一种移动应用私有加密协议的用户行为精细化分类方法及系统在审
申请号: | 201811311918.2 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109861957A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 熊刚;康翠翠;王炳旭;侯承尚 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/851;G06K9/62 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 私有加密协议 移动应用 分类器 流量数据 用户行为 精细化 分类 采集 特征向量 测试集 验证集 标注 训练分类器 特征提取 训练集 集合 验证 转换 | ||
1.一种移动应用私有加密协议的用户行为精细化分类方法,其步骤包括:
1)采集移动应用的流量,然后根据设置的私有加密协议特征从采集的流量中识别出私有加密协议流量;
2)从识别出的私有加密协议流量中采集设定用户行为类别的流量数据并对采集的流量数据标注对应的用户行为类别;其中同一用户行为类别对应的数据流是指使用相同的IP对、端口对和传输层协议,且在时间上连续的数据包的数据流;
3)根据步骤2)采集并标注的流量数据生成训练集、验证集以及测试集;其中,训练集和验证集是仅包含步骤2)采集并标注的流量数据,测试集包含步骤2)采集并标注的流量数据以及其他用户行为流量;
4)对所述训练集、验证集以及测试集中的流量数据进行特征提取,并将提取的特征转换为特征向量;
5)设置所选分类器的超参数,将归一化后的所述特征向量输入到所选分类器进行训练;
6)利用所述验证集对应的特征向量验证训练所得分类器,如果分类器度量高于设定阈值执行步骤7),否则调整分类器的超参数重新训练所选分类器;
7)对分类器在测试集上进行分类,如果分类结果不满足设定标准,则重新选取分类器并利用归一化后的所述特征向量进行训练;如果满足设定标准,则利用该分类器对待处理移动应用流量进行分类。
2.如权利要求1所述的方法,其特征在于,所述私有协议特征包括但不限于以下一种或几种特征:协议端口列表、服务器IP地址列表、非随机的载荷特征、传输层的协议标识。
3.如权利要求2所述的方法,其特征在于,识别出私有加密协议流量的方法为:
31)从采集的流量中识别出与设定的所述服务器IP地址列表中的服务器IP地址和所述协议端口列表中的协议端口信息匹配的流量;
32)利用私有协议的请求特征对31)识别出的流量进行匹配,得到私有加密协议流量。
4.如权利要求1所述的方法,其特征在于,根据对移动应用的不同功能进行操作并记录操作执行的时间戳,结合实际业务需求和行为可分性设定若干用户行为类别;所述用户行为可分性是指在时空上能够区分不同的两个用户操作的TCP/UDP流。
5.如权利要求1所述的方法,其特征在于,提取的特征包括私有协议的常用公共信息和专有信息。
6.如权利要求5所述的方法,其特征在于,对所述特征进行特征变换并归一化后输入到所选分类器进行训练;其中,所述常用公共信息为网络流序列信息,所述专有信息为私有加密协议操作特征码;所述特征变换包括:利用网络流序列信息计算网络流统计量、统计属性和包长序列的直方图,将私有加密协议操作特征码映射到离散空间,将所述专有信息中的连续数值直接用做加入特征向量。
7.如权利要求1所述的方法,其特征在于,使用网格搜索算法来进行超参数选择,调整分类器的超参数。
8.如权利要求1所述的方法,其特征在于,利用训练得到的分类器对验证集和测试集中的流量数据进行分类,如果得到的用户行为类别分类正确率的差值绝对值的加权平均值超过设定的误差上限,则判定分类结果不满足设定标准。
9.如权利要求1所述的方法,其特征在于,所述分类器为朴素贝叶斯分类器、logistics回归分类器、支持向量机分类器、决策树分类器或随机森林分类器。
10.一种移动应用私有加密协议的用户行为精细化分类系统,其特征在于,包括私有加密协议流量采集模块、数据集生成模块、特征向量生成模块、分类器训练模块和分类器评价模块;
其中,
所述私有加密协议流量采集模块,用于根据设置的私有加密协议特征从采集的流量中识别出私有加密协议流量;
所述数据集生成模块,用于从识别出的私有加密协议流量中采集设定用户行为类别的流量数据并对采集的流量数据标注对应的用户行为类别,以及根据标注的流量数据生成训练集、验证集以及测试集;其中,训练集和验证集是仅包含采集并标注的流量数据,测试集包含采集并标注的流量数据以及其他用户行为流量;同一用户行为类别对应的数据流是指使用相同的IP对、端口对和传输层协议,且在时间上连续的数据包的数据流;
所述特征向量生成模块,用于对所述训练集、验证集以及测试集中的流量数据进行特征提取,并将提取的特征转换为特征向量;
所述分类器训练模块,用于利用归一化后的所述特征向量对所选分类器进行训练;以及利用所述验证集对应的特征向量验证训练所得分类器;
所述分类器评价模块,用于对训练所得分类器在测试集上进行分类,判断分类结果是否满足设定标准;如果满足设定标准,则利用该分类器对待处理移动应用流量进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811311918.2/1.html,转载请声明来源钻瓜专利网。