[发明专利]一种支持网页分类的方法和系统有效
申请号: | 202111129758.1 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113806667B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 陈超凡;王轶骏 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951;G06F16/906;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 彭瑶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 网页 分类 方法 系统 | ||
本发明涉及一种支持网页分类的方法和系统,本发明获取数据集网页的HTML文件和JS文件;根据DOM树计算特征向量;根据JS的CFG计算特征向量;将HTML文件和JS文件的对应特征向量组合,得到网页特征向量;将所得网页特征向量作为神经网络的输入,进行训练;以相同的方法获取待测网页的特征向量,输入神经网络,获取输出的分类。与现有技术相比,本发明具有提升动态加载网页的识别准确度,支持大规模网页分类检测,克服基于内容的网页分类中语言差异等缺陷等优点。
技术领域
本发明涉及互联网通讯技术领域,尤其是涉及一种支持网页分类的方法和系统。
背景技术
在互联网的发展历程中,网页一直都是重要的参与者,从W3C万维网以共享信息为起始,网页开始出现,在共享的过程中,出现多种以复制网页源代码为代表性的盗取信息现象,也为类似网站有着相似的样式埋下了伏笔,现如今,移动互联网的第二波高潮以及网页可规模生成的便利性,网页数目爆炸性增长。
在对这些网页进行分类的过程中,主要是对Web页面进行处理。部分人员利用网页文本内容进行网页识别,部分人员通过网页图像、图片等显示内容进行网页识别,还有部分人员通过网页截图进行网页识别。而随着网页开发技术的不断发展更替,静态网页逐渐减少,越来越多的网站采用动态加载网页的方式。
所谓静态网页,是指页面数据和DOM树结构直接存储在HTML文件中。所谓动态加载网页,是指静态网页增强编程技术,在网页DOM树生成以及页面的渲染过程中,会根据JS代码进行动态调整而发生改变,因此如果直接通过爬虫爬取网页源代码,则无法获取真实的数据情况。
不同类型的网页往往拥有不同的网页结构,网页结构也拥有网页类别信息的特征,而且能避免网页本地化、内容填充等情况,然而目前通过简单的HTML DOM树计算技术无法很好地识别动态加载页面,识别准确度不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种支持网页分类的方法和系统。
本发明的目的可以通过以下技术方案来实现:
本发明第一方面提供一种支持网页分类的方法,该方法包括如下步骤内容:
资源获取步骤:
获取动态加载网页的HTML文件和JS文件;
HTML文件特征向量计算步骤:
根据HTML的DOM树计算HTML文件对应的特征向量;
JS文件特征向量计算步骤:
获取JS文件中含属性参数的控制流图,并将控制流图的基本块转换成特征向量,基于基本块的特征向量计算JS文件的特征向量;
网页特征向量计算步骤:
将所得HTML文件特征向量和JS文件特征向量组合,得到该网页的特征向量;
神经网络训练步骤:
将已经打好标签的网页按照上述步骤转换为打好标签网页的特征向量,作为输入对神经网络进行训练;
神经网络识别步骤:
将待检测网页按照上述步骤转换为待检测网页的特征向量,输入训练好的神经网络,获取分类结果。
进一步地,所述资源获取步骤的具体步骤包括:
爬取解析步骤:爬取所述动态加载网页的HTML文件,对所述动态加载网页的HTML标签进行解析,获取后缀名为JS的文件以及处于框架标签内的HTML文件及其文件路径;
分类下载步骤:对获取的处于框架标签内的HTML文件认定为嵌入HTML文件,根据其文件路径是否输入源域名,将JS文件划分为源JS文件和嵌入JS文件,并进行下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111129758.1/2.html,转载请声明来源钻瓜专利网。