[发明专利]基于恶意网络流量词库的恶意软件检测可视化方法及系统有效
申请号: | 201611243535.7 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106845230B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 陈贞翔;王闪闪;杨波;孙润元;荆山;马坤 | 申请(专利权)人: | 济南大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 恶意 网络流量 词库 软件 检测 可视化 方法 系统 | ||
1.基于恶意网络流量词库的恶意软件检测可视化方法,其特征是,包括如下步骤:
步骤(1):对HTTP网络流的内容进行单词分割,并建立恶意网络流量词库;
步骤(2):训练恶意软件检测模型;
步骤(3):对待检测的HTTP网络流的流内容进行单词分割,分割成单词集合;
步骤(4):利用步骤(1)得到的词库将步骤(3)的单词集合进行向量化处理;
步骤(5):利用步骤(4)将单词集合进行向量化处理得到的词向量输入到步骤(2)训练得到的恶意软件检测模型中,恶意软件检测模型通过计算给出检测结果;如果待检测HTTP网络流被预测为恶意流量,找到所述恶意流量的HTTP网络流的源头app,将源头app标记为恶意app;进入步骤(6);
步骤(6):计算预测结果为恶意的网络流产生的所有单词的权重;
步骤(7):恶意网络流的流内容可视化;
所述步骤(6)的步骤为:
步骤(6-1):遍历预测为恶意的HTTP网络流组成的单词词集,判断是否遍历结束,如果是就结束;如果否就进入步骤(6-2);
步骤(6-2):如果当前遍历的单词也存在恶意网络流量词库中,则计算出单词的词频-逆文档频率tf-idf,否则,将单词对应的tf-idf值设为0;并将得到的值加入到词频-逆文档频率TF-IDF列表中;当完成所有单词的遍历之后,就得到恶意网络流中每个单词的词频-逆文档频率tf-idf;转向步骤(7);
所述步骤(7)的步骤为:
步骤(7-1):排序,对词频-逆文档频率TF-IDF列表按照tf-idf值从大到小的顺序进行排序;
步骤(7-2):可视化参数配置;所述参数包括:可视化图像的背景颜色、最大字体大小、字体样式、字体颜色、词间隔、词排列顺序和遮罩图形;
步骤(7-3):根据每个词的词频-逆文档频率tf-idf值和步骤(7-2)设置的参数使用python语言的wordcloud库绘制恶意网络流流内容的可视化图像。
2.如权利要求1所述的基于恶意网络流量词库的恶意软件检测可视化方法,其特征是,所述步骤(1)的步骤为:
步骤(1-1):获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入步骤(1-3);
步骤(1-2):获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入步骤(1-4);
步骤(1-3):对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);
步骤(1-4):对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);
步骤(1-5):将步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集中出现频率,计算卡方值;
步骤(1-6):利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库;
所述步骤(1-5)的步骤为:
步骤(1-5-1):将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;
步骤(1-5-2):计算第一汇总词集中每个单词出现的次数:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;
步骤(1-5-3):归一化:对步骤(1-5-2)得到的统计次数进行归一化处理;
步骤(1-5-4):卡方检验:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方公式计算每个单词的得分,卡方公式如下:
其中,χ2(t,c)指的是特征t和类别c之间的卡方值,χ2(t,c)值越大,说明特征t对类别c的表征程度就越大,特征t在类别c中就越有意义,特征t是指一个单词,类别c是指恶意;是指特征t和类别c共同出现的次数,是指假设特征t和类别c相互独立时,两者共同出现的期望次数et和ec的值都属于(0,1)的集合中,即如果类别c或者特征t出现记作1,如果类别c或特征t没有出现记作0;
所述步骤(1-6)的步骤为:
步骤(1-6-1):设定分数的阈值或者是设定得分排序排在前K位的K值,此设置二选一,不可全设置;
步骤(1-6-2):遍历总单词集合中的每个单词,判断单词遍历是否结束;若是,就结束;若否,就进入步骤(1-6-3);
步骤(1-6-3):判断当前单词的得分是否大于阈值或者排在前K位;如果当前单词的得分小于阈值或者没有排在前K位,则忽略这个单词;如果当前单词的得分大于阈值或者排在前K位,进入步骤(1-6-4);
步骤(1-6-4):判断当前单词是否存在于恶意词集中;如果当前单词不存在于恶意词集中,则忽略这个单词;如果当前单词存在于恶意词集中,则将当前单词加入到恶意流量词库中;当遍历完所有的单词之后,恶意网络流量词库建立完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611243535.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种供电设备、供电系统、供电方法
- 下一篇:一种固定污染源模拟测试风洞