[发明专利]基于协同学习的可视化恶意软件检测方法有效
| 申请号: | 202110775119.6 | 申请日: | 2021-07-09 |
| 公开(公告)号: | CN113221115B | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 陈文;黄登;高覃 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F8/53;G06K9/46;G06K9/62;G06N20/00 |
| 代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 张秀敏 |
| 地址: | 610000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 协同 学习 可视化 恶意 软件 检测 方法 | ||
1.一种基于协同学习的可视化恶意软件检测方法,其特征在于,包括初始化过程和协同训练过程;其中:
所述初始化过程具体包括:
(1)软件可视化:当得到软件的二进制文件后,首先对每个二进制文件进行读取,得到每个二进制文件所对应的二进制字符串,然后将得到的二进制字符串组成二维矩阵,再将所述二维矩阵中的数值转化成像素值,并将每个像素值按照由黑至白过渡的颜色拼接成软件样本的灰度图像;
(2)特征提取:提取所述软件样本的特征,用于在不同的特征视图上训练多个不同的分类器,实现多分类器协同的恶意软件检测;其中,提取的特征包括:软件样本灰度图像局部特征视图、软件样本灰度图像全局特征视图和软件样本的行为特征视图;
所述的协同训练过程具体包括:
(3)多分类器新样本协同训练标记:
在训练的初始化阶段,利用少量有标记软件样本,在三个不同的特征视图下分别训练三个分类器;
之后在迭代训练过程中,对于所得到的分类器,由另两个分类器,为其产生更新样本,且:和随机从未标记软件样本集U中抽取软件样本进行标记,其中和标记结果相同的软件样本集合被认为具有较高置信度,在分类器所在的视图中对中的软件样本进行特征提取,并将提取后的特征连同标记的或作为新的有标记软件样本加入分类器的新标记软件样本集,用于的更新训练;
所述的协同训练过程还包括:
新标记软件样本的有效性评估:将多分类器新样本协同训练标记过程中标记错误的软件样本视作样本噪声,利用噪声学习理论,对新标记软件样本的有效性进行评估,只有通过评估的软件样本才能最终用于分类器的更新;
新标记软件样本的有效性评估具体包括:
设训练样本序列包含个软件样本,其中协同标记的样本噪声率,即错误率为,当满足时,有,其中,为置信度参数,表示分类器的分类误差上限,是软件样本的类别数目,反映了分类器和理想分类器的均衡差别的概率之和;
在给定置信度参数的情况下,需满足的条件可变形为式(1):
(1)
对式(1)左侧进行展开,可得:
(2)
从而得到:
(3)
根据式(3),软件样本数量和样本错误率需满足式(4):
(4)
令常数,其中为令式(4)取等号的系数,则可得:
(5)
由式(5)可知,误差上限的平方与成反比;
设为少量的已标记样本集,为第轮新标注的样本集,对于分类器,和,分别代表第轮新标记样本集,,第轮已标记样本总数为,软件样本协同标记错误率为,使用第轮的个样本对分类器进行更新训练,,若要保证更新训练后分类器的性能较上一轮训练有所提升,则需保证满足式(6):
(6)
结合式(5)和式(6)可知:若式(6)成立,则第轮的个样本对分类器,进行训练后,的分类误差上限将较轮更低;若式(6)不成立,则需要从未标记软件样本集U中重新采样进行协同标记;设第轮样本协同标记过程中,和在已标记软件样本集和新标记软件样本集上的错误率分别为和,则软件样本协同标记错误率如式(7)所示:
(7)
为保证训练过程持续降低分类误差上限,将式(7)代入式(6),可得:
(8)
通常在已标记软件样本上的分类错误率,可忽略不计,由此简化式(8)得到:
(9)
即:
(10)
将式(10)作为新标记软件样本集是否用于分类器更新训练的有效性评估条件;
采用十折交叉验证法,每轮迭代训练前从已标记软件样本集中随机选出1/10的样本加入未标记软件样本集U:,,利用中的软件样本对第轮协同标记的错误率进行估计;
由于未标记软件样本集的选取具有随机性,当时,需要有,式(10)较难满足,导致无法选出符合条件的协同标记软件样本而提前终止迭代更新过程;故限定两轮协同标记的软件样本规模大小一致,即,将式(10)的评估条件进行扩展,得到式(11),即:
(11)
通过固定每轮协同标记的软件样本规模,令,对软件样本的有效性评估条件进行简化;
当需要更多的已标记软件样本用于后继的分类器训练,继续放宽软件样本的有效性评估条件如式(12)所示:
(12)
其中,为松驰因子;
在第轮的迭代训练过程中,依次令,,对中的软件样本进行有效性评估,只有满足式(11)或式(12)条件的新标记软件样本才能对分类器进行更新训练,直至达到给定的迭代更新训练次数,或无法从未标记软件样本集U中找出符合更新条件的软件样本;
(4)投票检测过程:对于协同训练结束后得到的三个分类器,和,采用投票机制对恶意样本的进行融合标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775119.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多维度自动车辆识别方法
- 下一篇:一种电池的充放电控制方法及系统





