[发明专利]一种支持网页分类的方法和系统有效

申请号：	202111129758.1	申请日：	2021-09-26
公开（公告）号：	CN113806667B	公开（公告）日：	2023-10-03
发明（设计）人：	陈超凡;王轶骏	申请（专利权）人：	上海交通大学
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/951;G06F16/906;G06N3/04;G06N3/08
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	彭瑶
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种支持网页分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种支持网页分类的方法和系统，本发明获取数据集网页的HTML文件和JS文件；根据DOM树计算特征向量；根据JS的CFG计算特征向量；将HTML文件和JS文件的对应特征向量组合，得到网页特征向量；将所得网页特征向量作为神经网络的输入，进行训练；以相同的方法获取待测网页的特征向量，输入神经网络，获取输出的分类。与现有技术相比，本发明具有提升动态加载网页的识别准确度，支持大规模网页分类检测，克服基于内容的网页分类中语言差异等缺陷等优点。

技术领域

本发明涉及互联网通讯技术领域，尤其是涉及一种支持网页分类的方法和系统。

背景技术

在互联网的发展历程中，网页一直都是重要的参与者，从W3C万维网以共享信息为起始，网页开始出现，在共享的过程中，出现多种以复制网页源代码为代表性的盗取信息现象，也为类似网站有着相似的样式埋下了伏笔，现如今，移动互联网的第二波高潮以及网页可规模生成的便利性，网页数目爆炸性增长。

在对这些网页进行分类的过程中，主要是对Web页面进行处理。部分人员利用网页文本内容进行网页识别，部分人员通过网页图像、图片等显示内容进行网页识别，还有部分人员通过网页截图进行网页识别。而随着网页开发技术的不断发展更替，静态网页逐渐减少，越来越多的网站采用动态加载网页的方式。

所谓静态网页，是指页面数据和DOM树结构直接存储在HTML文件中。所谓动态加载网页，是指静态网页增强编程技术，在网页DOM树生成以及页面的渲染过程中，会根据JS代码进行动态调整而发生改变，因此如果直接通过爬虫爬取网页源代码，则无法获取真实的数据情况。

不同类型的网页往往拥有不同的网页结构，网页结构也拥有网页类别信息的特征，而且能避免网页本地化、内容填充等情况，然而目前通过简单的HTML DOM树计算技术无法很好地识别动态加载页面，识别准确度不高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种支持网页分类的方法和系统。

本发明的目的可以通过以下技术方案来实现：

本发明第一方面提供一种支持网页分类的方法，该方法包括如下步骤内容：

资源获取步骤：