[发明专利]一种基于特征提取的有效下载链接识别方法与系统有效
| 申请号: | 201711344106.3 | 申请日: | 2017-12-15 |
| 公开(公告)号: | CN108111584B | 公开(公告)日: | 2020-02-21 |
| 发明(设计)人: | 申卓祥;覃涛明;段桂华;李智 | 申请(专利权)人: | 中南大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F16/955;G06K9/62;G06N99/00 |
| 代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
| 地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 提取 有效 下载 链接 识别 方法 系统 | ||
本发明公开了一种基于特征提取的有效下载链接识别方法与系统,该方法包括以下步骤:步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。相对于现有技术而言,该方案提供了主动识别机制以克服纯黑名单比对产生的漏判;针对性地提出了个性化特征以弥补识别目标的差异;客户端以插件和弹窗结果反馈形式实现从而增强交互性和用户体验;(4)依托云计算架构大大减少用户电脑的负担并节约管理成本。
技术领域
本发明属于信息安全领域,特别涉及一种基于特征提取的有效下载链接识别方法与系统。
背景技术
互联网为人们的生产生活带来了巨大的便利,但与此同时,互联网的发展也带来了不少问题。一些病毒软件及恶意代码借由互联网这一“捷径”疯狂传播,严重威胁人们的信息和财产安全。有时下载某个文件时,尤其是去一些小的下载网站下载时,发现打开的下载链接并不是想要的文件,而是带有商业性质的推销广告,还有些则是低俗、不堪入目、严重影响未成年人身心健康的黄色网站,更有甚者,有些链接还会后台下载流氓软件或是网页木马,不仅威胁人们的个人隐私,拖慢电脑运行速度,而且那些淫秽站点对人们的精神损失也不可估量。因此设计一种有效下载链接识别方案帮助用户在不打开链接的情况下预判链接的有效性很有必要。
当今类似方向上的软件系统主要存在三个方面的问题:
一是现今仍有很多软件系统只依赖黑名单,寄希望通过用户的举报扩充黑名单的数据,然后通过比对黑名单告知用户所点链接的风险。这种方法缺点在于,没有哪一个黑名单能够保证涵盖所有风险链接,它完全依赖其他用户的举报,如果其他用户举报不及时或是没发现则很容易出现漏判。
二是部分采用了特征提取和机器学习的软件系统其着眼点往往是钓鱼网站,对下载链接的识别缺乏针对性,因为下载链接又有自己的一些特点,有一些个性化特征,还是有不少差异,盲目地将这些系统用来识别下载链接会产生大量的误判和漏判。
三是这种功能往往是一个大软件系统中的小功能,用户必须要安装整个软件系统,占用系统资源大,用户体验不好。
发明内容
本发明针对现有技术中存在的下载链接识别不准确的问题,提出了一种基于特征提取的有效下载链接识别方法与系统。
一种基于特征提取的有效下载链接识别方法,包括以下步骤:
步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;
步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;
步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。
进一步地,利用可信因子对链接识别结果进行评估:
p=z·u
其中,p表示可信概率,z表示利用机器学习判别器获得判别结果,u表示链接可信因子。
进一步地,利用数据库记录链接黑名单和被举报次数,按照以下公式设置链接识别结果设置可信因子u:
其中,t表示该链接的举报次数。
举报次数越多,u的值越小;
进一步地,所述机器学习判别器的训练过程如下:
步骤2.1:利用训练数据中的链接数据特征向量和对应的链接标签构建线性回归模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711344106.3/2.html,转载请声明来源钻瓜专利网。





