[发明专利]一种欺诈网站的检测方法在审
申请号: | 201611096217.2 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106776946A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘岳;刘剑峰;盛杰;尹成语;杨吉云 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆大学专利中心50201 | 代理人: | 唐开平 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 欺诈 网站 检测 方法 | ||
1.一种欺诈网站的检测方法,其特征是,包括以下步骤:
步骤1、获取网站统一资源定位符URL;
步骤2、根据获得的网站统一资源定位符URL在系统已有的网站数据库中匹配,网站URL不存在于数据库中,则执行步骤3;若网站存在于数据库中,则结束;
步骤3、检测网站流量排名数值是否大于100万,若获得的网站排名数值大于100万,则执行步骤5;否则,则执行步骤4;
步骤4、,检测网站流量排名数值是否大于10万,若获得的网站排名数值大于10万,则执行步骤6;若获得的网站排名数值小于10万,则执行步骤7;
步骤5、通过获取的统一资源定位符URL经过检测域名是否匹配和检测网站标题、检测网站页面内容、检测网站DOM文档对象模型、检测页面图片中存在的欺诈信息,计算安全系数,返回安全系数的结果与所设定排名数值大于100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;
步骤6、通过检测网站页面内容、检测网站DOM文档对象模型,计算安全系数,返回安全系数的结果与所设定排名数值10万-100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;
步骤7、通过检测网站页面内容,得到安全系数,返回安全系数与所设定的排名数值小于10万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;
步骤8、根据识别的结果更新网站数据库。
2.根据权利要求1所述的欺诈网站的检测方法,其特征是,在步骤5中,判断待检测网站的步骤如下:
步骤S201,检测网站域名与中网可信网站匹配和网站标题得到第一影响因子I1;
步骤S202,获取所述URL对应网站页面的内容,对页面内容做敏感关键词及含有通配符的混淆敏感关键词匹配,根据页面含有敏感关键词和混淆敏感关键词的数量,将第二影响因子I2置为2,1或0;
步骤S203,获取网站页面访问页面的源代码,利用正则表达式提取出DOM文档对象模型中的所有站外信息,将提取出的非本域名的URL进行网站流量排名检测,当排名数值超过100万的URL数量占提取出的总的URL的比例超过站外URL比例阈值时,将第三影响因子I3置1,否则置0;
检测页面中所含有的信息输入框的数量及对应的名称,若含有信息输入框,同时信息输入框的名称为敏感词,则将第四影响因子I4置1,否则置0;
步骤S204,获取网站页面中所有的图片URL,调用网易易盾的图片检测接口函数,传入页面中所有图片的地址,根据返回数据中的分类信息得到页面图片中含有的广告和欺诈类型图片的比例,该值与页面非法图片比例阈值相比较,超过该阈值则将第五影响因子I5置1,否则置0;
步骤S205,根据获得的五个影响因子,加权求和得到安全系数;
步骤S206,将步骤S205计算得到的安全系数与排名数值大于100万安全阈值相比较,把待检测网站分为欺诈网站和可信网站两类。
3.根据权利要求1所述的欺诈网站的检测方法,其特征是,在步骤6中,判断待检测网站的步骤如下:
步骤S301,获取所述URL对应网站页面的内容,对页面内容做敏感关键词及含有通配符的混淆敏感关键词匹配,根据页面含有敏感关键词和混淆敏感关键词的数量,将第二影响因子I2置为2,1或0;
步骤S302,获取网站页面访问页面的源代码,利用正则表达式提取出DOM文档对象模型中的所有站外信息,将提取出的非本域名的URL进行网站流量排名检测,当排名数值超过100万的URL数量占提取出的总的URL的比例超过站外URL比例阈值时,第三影响因子I3置1,否则置0;
检测页面中所含有的信息输入框的数量及对应的名称,若含有信息输入框,同时信息输入框的名称为敏感词,则将第四影响因子I4置1,否则置0;
步骤S303,根据步骤S301所得的第二影响因子I2和步骤S302所得的第三影响因子I3、第四影响因子I4,加权求和得到安全系数;
步骤S304,将步骤S303计算得到的安全系数与排名数值10万-100万安全阈值相比较,把待检测网站分为欺诈网站和可信网站两类。
4.根据权利要求1所述的欺诈网站的检测方法,其特征是,在步骤7中,判断待检测网站的步骤如下:
步骤S401,获取所述URL对应网站页面的内容,对页面内容做敏感关键词及含有通配符的混淆敏感关键词匹配,根据页面含有敏感关键词和混淆敏感关键词的数量,将第二影响因子I2置为2,1或0;
步骤S402,将步骤S401计算得到的第二影响因子I2加权计算后作为安全系数;
步骤S403,将步骤S402计算得到的安全系数与排名数值小于10万的安全阈值相比较,把待检测网站分为欺诈网站和可信网站两类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611096217.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移动终端及垃圾文件搜索方法
- 下一篇:资源获取方法、装置及终端