[发明专利]域识别加主题识别构建机器学习模型检测网页暗链的方法有效
| 申请号: | 201710853580.2 | 申请日: | 2017-09-20 |
| 公开(公告)号: | CN107566391B | 公开(公告)日: | 2020-04-14 |
| 发明(设计)人: | 孟雷 | 申请(专利权)人: | 上海斗象信息科技有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/33;G06F16/955;G06N99/00 |
| 代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
| 地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 主题 构建 机器 学习 模型 检测 网页 方法 | ||
本发明提供了一种域识别加主题识别构建机器学习模型检测网页暗链的方法,包括:收集大量含已被标注为包含暗链的网页源码和标注为正常的网页源码作为训练集,通过可疑域识别、敏感域识别、安全域识别、全域分析和主题识别提取每个网页源码中风险文本、风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型,最后,将待预测网页源码的特征数据导入分类判别模型中,得到待预测网页源码是否包含暗链,因此,本发明对高混杂暗链代码识别效果好、特征提取的比较完整、且能够很好解决传统方法无法正确区分暗链和页面篡改的问题。
技术领域
本发明属于网络安全技术领域,具体涉及一种域识别加主题识别构建机器学习模型检测网页暗链的方法。
背景技术
近年来,互联网行业蓬勃发展,网络已经成为人们主要的信息获取方式,随着各种新网站的出现,网络信息成指数级增长。在这种海量信息下,搜索引擎成为了主要的信息搜索工具,搜索引擎通过爬取网站信息并对网页内容计算权重做排名展示在搜索结果中。由于展示在搜索结果前部的网站有更大概率被用户访问,某些网站管理者为了获取更多访问量,往往采取各种作弊手段。“暗链”就是一种提高网站排名的作弊手段。具体说,“暗链”指的是攻击者获取网站权限后,修改网页源码,插入指向其他网站的反向连接代码,并且用户在正常浏览网页时无法看到此链接,但可被搜索引擎检索计算权重。一旦网页中存在暗链,通常这个网站已经被入侵,网站存在被植入恶意代码、网页被恶意篡改,数据信息泄露等风险。因此,“暗链”相比于其它搜索引擎作弊方式,具体有更大的危害性,并且难于发现。目前传统暗链检测方式都是基于规则的扫描方式,此种方式规则固定,很容易通过使用一些有技巧的代码编写方式绕过,规则扫描方式还需要大量人工维护对规则更新。这种基于规则无法对高技巧编码的识别,以及需要大量人工维护的问题,即是本文需要解决的技术问题。本文设计的基于机器学习的方案能很好的解决此类技术问题。
各搜索引擎也对通过页面注入暗链方式提升网站排名行为做了严格管控,但是这种暗链行为还是时有发生。目前在已公布的关于暗链检测的专利中,多数是使用基于规则的检测。如百度公开的暗链检测专利(申请号201210049496.2公布号CN102622435A),是使用基于规则加黑名单识别网页暗链,此方式对于高度混淆的暗链代码识别较弱。目前已公布的暗链检测专利中仅有一篇使用了机器学习算法,专利(申请号201410452221.2公布号CN104239485A)使用了机器学习对页面中提取的所有锚文本作为特征构建模型识别暗链,此种方式提取了页面所有锚文本,会产生很多噪音数据,提取的特征较粗,会降低识别效果,并且由于仅通过锚文本做特征会将不含暗链的页面内容篡改误识别为暗链。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种对高混杂暗链代码识别效果好、特征提取的比较完整、且能够很好区分暗链和页面篡改的域识别加主题识别构建机器学习模型检测网页暗链的方法。
本发明提供了一种域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于,包括以下步骤:
步骤1,收集大量网页源码作为训练集,所述训练集中包含已被标注为包含暗链的网页和标注为正常的网页;
步骤2,提取训练集中网页源码和待预测网页源码中用于构建机器学习模型的特征数据,所述特征数据包含风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,
首先,将所述训练集中网页源码和待预测网页源码进行可疑域识别或敏感域识别得到每个网页源码的风险文本和风险度,进行安全域识别得到安全文本,或者,进行全域分析得到每个网页源码的风险文本、风险度和安全文本,根据所述风险文本和所述安全文本基于主题识别模型得到每个网页源码的主题异样度、以及主题,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斗象信息科技有限公司,未经上海斗象信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710853580.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:极耳抚平随动机构及锂电池卷绕机
- 下一篇:刮压极耳装置





