[发明专利]一种基于改进stacking算法的Android恶意软件检测方法有效

申请号：	202010166372.7	申请日：	2020-03-11
公开（公告）号：	CN111310185B	公开（公告）日：	2022-10-04
发明（设计）人：	张高峰;鲍旭丹;徐本柱;郑利平;史骏;夏雪晗;刘恩生;徐立强	申请（专利权）人：	合肥工业大学
主分类号：	G06F21/56	分类号：	G06F21/56;G06N3/04;G06N3/08
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进 stacking 算法 android 恶意软件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进Stacking算法的Android恶意软件检测方法，其特征包括以下步骤：

步骤一：特征向量构建：

步骤1.1：根据Android软件的权限特征和Intent意图特征分别构建包含m个权限特征的权限列表项list_P和包含n个Intent特征的意图列表项list_I；

步骤1.2：获取T个Android软件样本，并对第t个Android软件样本进行解压，得到第t个样本的AndroidManifest.xml清单文件，再对第t个AndroidManifest.xml清单文件进行扫描，并获取第i个权限特征和第j个Intent意图特征，判断所述第i个权限特征是否属于权限列表项list_P，若是，则将第t个样本的第i个权限特征记作“1”，否则，记作“0”；判断第j个Intent特征是否属于意图列表项list_I，若是，则将第t个样本的第j个Intent特征记作“1”，否则，记作“0”；从而遍历T个样本后，得到权限特征向量和Intent特征向量

步骤1.3：将所述权限特征向量P和Intent特征向量I进行并集操作，得到样本总体特征向量X＝[x₁,...,x_t,...,x_T]，x_t表示第t个样本的总体特征；

步骤二：特征向量处理：

步骤2.1：利用局部线性嵌入算法对所述样本总体特征向量X＝[x₁,...,x_t,...,x_T]进行降维处理：

步骤2.2.1、根据欧式距离，计算到第t个样本x_t最近的k个近邻点(x_t1,x_t2,...,x_tk)；

步骤2.2.2、利用式(1)构建损失函数并通过最小化获得局部重构权值矩阵

式(1)中，x_d为第t个样本x_t的第d个近邻点，w_td为第t个样本x_t在对应第d个近邻点x_d的权重系数；

步骤2.2：利用式(2)构建所有样本从原始高维空间映射到低维空间中的损失函数Φ(Y)：

式(2)中，y_t为第t个样本x_t在低维空间中对应的投影点，y_d为投影点y_t的第d个近邻点，E为κ×κ阶单位阵，κ为低维空间的维数，κ＜＜m+n；

步骤2.3、通过最小化损失函数Φ(Y)获得降维后的特征向量Y＝[y₁,...,y_t,...,y_T]；

步骤三：Android恶意软件检测：

步骤3.1：划分降维后的特征向量Y＝[y₁,...,y_t,...,y_T]为训练集Y_tra和测试集Y_tst，并用l_tra和l_tst表示所述训练集Y_tra和测试集Y_tst的真实标签，用N_tra和N_tst表示训练集Y_tra和测试集Y_tst的数量；设置交叉验证折数为n，即将所述训练集Y_tra分为n份，以每n-1份作为子训练集，剩余的1份作为子测试集；

步骤3.2：在Stacking算法的第1层中，通过交叉验证的方法将所述训练集Y_tra分别输入S个基学习器中，得到S个最优模型及其相应的预测结果，其中，任意第s个最优模型记为Net_s，所述第s个最优模型Net_s的预测结果包含：每份子测试集的预测结果的合并值A_s以及对所述测试集Y_tst的预测结果的求和平均值B_s；

步骤3.3：利用式(3)计算预测结果与所述训练集Y_tra的真实标签l_tra的误报率FPR_s：

式(3)中，FPR_s表示合并值A_s与训练集Y_tra的真实标签l_tra的误报率，FP_s表示合并值A_s中正常软件被检测为恶意软件的数量，TP_s表示合并值A_s中恶意软件被检测为恶意软件的数量；

步骤3.4：在Stacking算法的第2层中，利用式(4)计算合并值A_s的加权值w_s：

式(4)中，用(1-FPR_s)^λ表示第s个最优模型Net_s的反误报分量，λ为调整参数；

步骤3.5：利用式(5)得到合并值A_s的加权结果C_s：

C_s＝w_sA_s (5)

将加权结果C_s配合所述训练集Y_tra的真实标签l_tra作为新的训练集，并输入Stacking算法第2层中的元学习器进行训练，得到训练好的元学习器，用于对所述求和平均值B_s进行预测，从而得到新的训练集的分类结果

步骤3.6：利用式(6)计算新的训练集的分类结果与所述测试集Y_tst的真实标签l_tst的均方误差值

步骤3.7：对所述调整参数λ进行更新，使得所述误差值最小化，从而得到最优元学习器并用于实现对未知Android软件的检测。

2.根据权利要求1所述的Android恶意软件检测方法，其特征是，所述步骤3.2中的基学习器为深度神经DNN网络，并按如下步骤得到第s个最优模型Net_s：

步骤一：参数初始化：

步骤1.1：自底向上逐层堆叠多个受限玻尔兹曼机RBM，从而构建深度信念网络DBN模型；