[发明专利]基于自适应异构多分类模型的钓鱼网站检测方法和系统有效
申请号: | 201810549417.1 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108965245B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 臧天宁;强倩;杜飞;周渊 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 异构多 分类 模型 钓鱼 网站 检测 方法 系统 | ||
本发明提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型,对多分类模型进行训练,该模型输入是各基分类算法的输入,输出是样本标签,每个基分类算法从样本记录中提取相应的特征作为输入;采用机器学习算法求解模型参数,并用测试集进行测试和优化,最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明实现对钓鱼网站实时检测,并提高了钓鱼网站检测的准确性和稳定性。
技术领域
本发明涉及计算机网络安全领域,具体涉及一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。
背景技术
随着互联网技术的蓬勃发展,网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为,它以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗的用户会产生不同程度的个人信息泄漏,继而导致经济损失。如何快速准确地检测钓鱼网站成为Web(全球广域网)信息安全研究热点。目前已公开的钓鱼网站检测技术主要包括以下几种方式:
(1)基于黑白名单机制的检测技术:作为一种实用的核心技术,黑白名单具有高效准确的优点。通过对域名的判定,可以快速定位钓鱼网站,是最常用的实现技术之一[1]。
(2)基于视觉相似度的检测技术:曹久新等人提出了一个基于嵌套EMD(EarthMover’s Distance)的网页相似度判定算法,对Web图像进行分割,利用分割后的子图特征来构建网页的ARG(Attributed Relational Graph)。计算得到不同的AGR属性的距离后,通过嵌套EMD方法得到钓鱼网站与受保护网站网页的相似度,进而实现对钓鱼网站的高精度检测[2]。
李喧等人基于EMD算法,利用视觉上的相似度来判别钓鱼网站。该种算法采用网页中像素相似度的比较所得的结果作为判断钓鱼网站的依据[3]。
(3)基于贝叶斯算法的检测技术:金庆等人基于规则的贝叶斯算法,制定了一系列的匹配钓鱼网站的规则。随后为每个规则分配其相应的权值,计算其修正系数,得出被测网站是钓鱼网站的概率。进而可通过概率阈值判断其是否为钓鱼网站[4][5]。
庄蔚蔚等人对网页标签标题内容,网站中关键字信息、页面描述信息、图片链接以及网站版权信息等8个特征,利用扩展贝叶斯算法化及其改进后的支撑向量机来进行分类集成,构建出一种能够对网络钓鱼攻击进行智能检测的系统[6]。
(4)基于文档结构的检测技术:郭敏哲等人分析了Web网页文档对象,提取文本对象模型中的常被钓鱼者利用的网络钓鱼敏感信息特征,来判断该网站是否为钓鱼网站。该算法有效地滤除了网站中的Phishing(网络仿冒)页面,强有力的制止了网络钓鱼者的恶意钩鱼攻击[7]。
(5)基于深度学习的钓鱼网站检测技术:许珑于结合深度学习的技术,提出了多层结构的DBN-KNN模型,将其运用到钓鱼网站的特征识别中,识别出钓鱼网站[8]。
(6)其它类型的检测技术:黄华军等人提出基于半脆弱水印的网络钓鱼主动防御[9]以及基于异常特征钓鱼URL检测算法[10];张健毅等人提出一种文本语义理解的网络钩鱼检查算法[11];其余防御措施包括针对web-mail邮箱的跨站网络钓鱼攻击的研巧、基于云计算的URL过滤[12]、SVM学习算法[13]等。
在以上技术中,基于黑白名单的检测方法时效性较差、名单范围也存在不足;基于视觉相似度的检测技术算法复杂,检测消耗的时间较长,不能适用于海量URL(UniformResoure Locator:统一资源定位器)的在线实时检测;基于贝叶斯算法的检测技术在鲁棒性和泛化性能上不是很理想;基于文档结构的检测技术存在特征覆盖不全面的问题,漏报较多;基于深度学习的钓鱼网站检测技术在特征识别上有优势,但特征的稳定性较差,容易受到样本污染的干扰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司,未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810549417.1/2.html,转载请声明来源钻瓜专利网。