[发明专利]基于特征工程和表示学习的机器行为识别方法有效

申请号：	202110910834.6	申请日：	2021-08-10
公开（公告）号：	CN113608946B	公开（公告）日：	2023-09-12
发明（设计）人：	郭承禹;潘进;王磊;刘洋;张翠;谢程利;辛永辉	申请（专利权）人：	国家计算机网络与信息安全管理中心
主分类号：	G06F11/22	分类号：	G06F11/22;G06F11/26;G06F11/34;H04L9/40
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征工程表示学习机器行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于特征工程和表示学习的机器行为识别方法，其特征在于，由三个步骤构成：

步骤一，对大数据进行分析，通过时间、频次多维度的信息，建立3σ模型，用于确定机器行为的访问时间频段，在机器行为的访问时间频段下，通过分组聚合方式，归纳总结提取出基于机器行为的特征；

步骤二，并通过查阅API文档、软件模拟复现、官方的RFC文档方式对行为进行定义和命名，整合成一组完备的机器行为特征，完成基于特征工程机器行为识别工作；

步骤三，对识别效果不佳的模型加入与其他行为存在交集的特征，去排除其他行为，以提高准确率；

所述步骤一中，基于机器行为的特征具体包括：(1)、爬虫行为；(2)、Track-Peer服务器通信行为的URL参数特征；(3)、流量/埋点统计行为包含的URL参数特征；(4)、暴力域名解析行为包括的域名特征；(5)、测试行为特征；

所述的五个行为及其所包含的特征组成了一个完备的知识库；其中对于流量/埋点统计行为的规则中包含了Track-Peer服务器通信行为导致的效果不佳问题，加入了对于排除Track-Peer服务器通信行为参数的限制规则；

所述爬虫行为具体包括：URL特征、源IP特征、UA特征；

所述测试行为特征具体为URL特征；

所述步骤一具体为：在海量的数据中，依靠spark计算工具统计在以时间粒度为1秒的情况下单一IP的URL访问次数，并通过3σ模型分析在以时间粒度为1秒的情况下出现单一IP访问URL可能出现的机器行为日志时间段；将这部分日志进行多维度的统计，即通过URL、UserAgent、RequestLine、源IP、目标IP、源IP地理位置、目标IP地理位置、源IP端口号、目标IP端口号这部分数据进行分析；具体步骤如下：

设X为数据集、i为第i秒段、X_i为第i秒段下URL的访问次数；μ为E(X)即每秒URL访问量的数学期望，σ为D(X)即在每秒URL访问量的方差；通过公式计算

由此得到关于时间-频次分布图；根据单侧置信区间公式，对于服从正态分布的秒段数据集X即X～N(μ,σ)对其中大于3σ的秒段认定可能存在机器行为；

对机器行为可能存在的X₁、X₂、X₃......X_n秒段进行下一步分析，分别对X₁、X₂、X₃......X_n秒段内的源IP、URL、UserAgent数据进行数据聚合，由于数据量过于庞大，一般的数据分析软件如Python单机下内存受到限制，故无法处理超过100GB的数据；需应用Spark的Yarn-Cluster进行数据分析，如应用GroupByKey算子、ReduceByKey算子、SortBy算子对数据进行多维度分析；

应用数理统计的基本原理及基础的分析可知，单一源IP无法在一秒内访问过多的目的URL；由此定位到机器行为可能出现的源IP，并通过UserAgent、URL字段进行统计和查询，对其中的共性特征进行下一步的下钻分析；得出以下关于机器行为的特征；

通过以上的分析步骤分析一批拦截日志得到以下的机器行为可能存在的区域并通过查阅API文档、软件模拟复现、检索官方的RFC文档方式，提取到了以下几种机器行为的特征；

爬虫行为大型搜索平台为满足用户搜索服务进行的页面预缓存行为；特征包括

a)访问域名下的robots.txt爬虫配置文件；

b)UserAgent标注{CompanyName}+{Spider/Bot/Crawl}+{CompanyURL}；

c)源IP字段为特定的搜索引擎公司网段；

d)计算IP的活跃时长，对活跃IP进行判断；

Track-Peer服务器通信行为一种用于P2P服务器通信的约定格式用于数据Track与Peer、Peer与Peer的消息传递；特征包括

a)参数info_hash：种子文件对应的hash值

b)参数peer_id：随机标识符，表示自身的请求

c)参数port：主机监听端口号，用与同其他peer的连接请求

d)参数uploaded：当前上传总量

e)参数downloaded：当前下载总量

f)参数left：剩余下载量，即总量-已下载量

g)参数compact：Track服务器反馈当前peer的方式

h)参数event：主机的下载状态

i)参数ip：可选，主机ip地址

j)参数numwant：可选，Track服务器反馈peer的数量

k)参数key：可选，随机标识符

l)UserAgent包含torrent、player字样

流量/埋点统计行为一种为实现用户行为统计、数据分析为目的的第三方网站统计行为；特征包括

a)参数含有上一跳地址

b)参数含有目标域名的URL

c)参数含有时间戳

d)参数含有IP地址

e)参数含有UserAgent字段

f)参数含有系统名称

g)参数含有屏幕尺寸

h)参数含有用户动作

i)参数含有目标域名在统计网站的编码ID

j)URL存在特定的统计网站域名

暴力域名解析行为以获取某一域名下的子域名，或某一级域名为目的的域名检索行为；多存在于DNS解析过程而少部分存在于URL表中；特征包括

a)同一时间粒度下源IP访问次数多

b)同一源IP访问了同一域名下的不同子域名测试行为测试行为包括了特定软件的测试行为以及服务器的测试行为，由于测试行为是由机器触发并存在失败重连规则，因此会导致日志量的激增；

测试行为包括代理服务器连接测试、谷歌浏览器内核测试行为、DNS服务商IP测试行为、服务器测试行为；

①代理服务器连接测试行为通过HTTP协议进行的正向代理的行为，特征包括

a)请求方式为CONNECT

b)同一源IP在一秒时间段内多次访问同一URL

②谷歌浏览器内核测试行为由谷歌浏览器内核触发的网络连接测试行为，特征包括

a)访问URL为www.google.com/gen_204或clients[*].google.com，其中[*]为任意数字

b)请求方式为GET

③DNS服务商IP测试行为由DNS服务提供商进行的IP连接测试以确保与域名对应的IP服务器可以正常运行，特征包括

a)DNS服务商提供的部分IP表

b)UserAgent为DNS Pod、DNS-Monitor标识符

④服务器测试行为对服务器进行测试访问特定的端口号或特征的请求方式进行测试的行为；特征如下

a)端口号为7、9

b)请求方式为TRACE；

所述步骤二具体为：

机器行为识别模型的特征规则

根据分析所得特征，构建URL机器行为特征的思维导图并据此建立机器行为识别模型；

机器行为识别模型构建

模型设计分为两个部分：首先，对于确定性的规则，测试行为识别、爬虫行为识别、暴力域名解析行为识别以及Track-Peer服务器通信行为识别方法应用模式匹配和特定的识别算法；其次，对于非确定性的规则，流量/埋点统计行为识别，在工程中提出了基于层次分析法的识别模型并建立基于深度学习的识别模型以提升模型识别准确率；

①确定性机器行为的识别

测试行为识别、爬虫行为识别以及Track-Peer服务器通信行为识别方法根据上述的规则进行模式匹配；

②不确定性机器行为的识别

由于流量/埋点统计行为的规则特征不明确，多为描述式的语言；并且流量统计行为的第三方网站数量众多没有统一的规则规范；为实现描述性特征的量化评价到行为识别；引用运筹学家Saaty提出的一种解决复杂的多因素决策问题层次分析法；它将目标问题拆分为多个子问题，建立多要素、多层次的评估模型，该方法采用定性与定量相结合的方法，通过定性信息定量化的途径，使得复杂的评价问题可定量计算；构建的识别流量/埋点统计行为的识别评估模型，采用层次化的分层结构，将行为特征评估目标分解为参数类特征、时间类特征、域名类特征3个类别进行定量的计算问题；

测试行为包括了特定软件的测试行为以及服务器的测试行为，由于测试行为是由机器触发并存在失败重连规则，因此会导致日志量的激增；

第一步给出评估模型的总体计算公式

Score(x_i)＝w₁β₁+w₂β₂+w₁β₃ (4)

其中，设置数据集为X，第i条数据为X_i；α₁、α₂、α₃...α_n为流量/埋点统计行为的基本特征规则，α_j的评价值由公式计算得到；

β₁、β₂、β₃为分类特征，分别是：β₁类为参数类特征，β₂类为时间类特征，β₃类为域名类特征；α_j∈β_k类，m为β_k类存在的特征总数，类别k∈{1,2,3}；β_k类的评价值根据公式计算得到；

Score(x_i)为最后评估模型给出的对于该条日志的评价值，设权重向量为W＝[w₁,w₂,w₃]^T，获取权重向量的具体方法及权重向量值将在下面几步给出；Score(x_i)的数值根据公式计算得到；

第二步为获得权重向量值，需给出判定矩阵A_jm，其中的元素a_ij表示特征i比特征j对评价目标影响重要程度的倍数；在三类特征中，β₁类即参数类特征最能体现行为特点，其次是β₃类即域名类特征，最后是β₂类即时间类特征；为了表征各个元素的重要性，引入数字1～9及其倒数作为度量；基于以上分析建立出判定矩阵A_jm如公式

第三步求得列向量归一化结果、权重矩阵的W值、λ_max值.

λ_max＝3.0387 (8)

第四步进行一致性检验

①计算一致性指标CI(Consistency Index)

判断一致性指标CI度量了判断矩阵的平均偏离一致性，当CI＝0是矩阵一致性的充要条件，而且当CI越小时，判断矩阵偏离一致性程度就越小；CI的计算如公式所示；

其中，n为矩阵阶数中n＝3

②确定平均随机一致性指标RI(Random Index)

平均随机一致性指标RI是一致性指标CI的期望，表示CI的集中程度，Saaty已经通过实验给出，查表即可；当n＝3时，RI＝0.58.

③计算一致性比率CR(Consistency Ratio)

一致性比率CR是CI与RI的比值，如公式所示，若CR0.1则符合一致性检验，否则需要调整矩阵参数，再进行迭代计算；

将λ_max＝3.0387代入公式，并将CI、RI代入公式可得，构建的判断矩阵A_jm的一致性比率CR＝0.0334，小于0.1，符合一致性检验结果；第五步将权重向量W代入公式，求得X_i的评估值Score(x_i)后与阈值F进行比较判定是否为此类行为；

其中阈值F根据实验效果给出。