[发明专利]用于面向特定网络入口的新内容检测和汇聚方法及装置有效
申请号: | 202110057704.2 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112887381B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 陈秋实;朱俊杰;王瑜;杨妮;王坤鹏;胡茂胜 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | H04L67/02 | 分类号: | H04L67/02;G06F16/958 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 面向 特定 网络 入口 内容 检测 汇聚 方法 装置 | ||
本发明涉及网页内容处理领域,提供一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:S1:获取特定网络入口的网络连接;S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。本发明中用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容,并能够持续的获取新的网页内容。
技术领域
本发明涉及网页内容处理领域,尤其涉及一种用于面向特定网络入口的新内容检测和汇聚方法及装置。
背景技术
随着互联网信息的日益增长,不同的信息充斥着人们的生活。人们越来越需要对所关注信息的新内容进行检测、分类和管理。由于互联网信息充斥着大量无关信息,如何准确、自动的获取特定网络入口的信息以及分类汇聚,以及变得更为重要。如今很多互联网公司都对自己的搜索引擎进行了改进,使其能够支持更多种的信息收集和检索,但是面对庞大的信息源,搜索引擎选取的内容很难满足用户的需求。尤其是对于特定网络入口的信息变化,现有技术中的搜索引擎很难全面、准确的进行处理。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于,解决现有技术中对于特定网络入口的信息变化很难全面、准确的进行处理的技术问题。
为实现上述目的,本发明提供一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:
S1:获取特定网络入口的网络连接;
S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
优选地,步骤S2具体为:
S21:通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
S22:判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
优选地,步骤S3中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为存在新内容的子节点。
优选地,步骤S3中,所述反馈操作具体为:
S31:对所述更新后的网页内容中各信息进行相关度顺序;
S32:判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
S33:更新所述更新后的网页内容对应的结构树,进入步骤S4。
优选地,步骤S3中,所述将所述更新后的网页内容发送至用户包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110057704.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对象识别方法、对象识别装置及存储介质
- 下一篇:一种继电保护回路校验系统