[发明专利]基于CDN的网页内容感知系统及方法有效
申请号: | 201410727791.8 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104536972B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 鄂海红;宋美娜;郑聪;王赟;李川;潘昊;宋俊德 | 申请(专利权)人: | 北京邮电大学;博元森禾信息科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100876 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页内容 控制处理模块 感知系统 日志数据 页面结构 控制器 数据管理模块 数据获取模块 存储模块 索引表 感知 互联网内容提供商 采集 处理模块 获取模块 控制数据 通用性强 相关参数 实时性 特征词 存储 网页 筛选 分析 | ||
本发明提出一种基于CDN的网页内容感知系统包括数据获取模块、数据管理模块、处理模块和控制器。数据获取模块用于采集日志数据。数据管理模块包括第一存储模块,第一存储模块存储有索引表,索引表包括特定互联网内容提供商的预定URL及其对应的预定页面结构。控制器用于控制数据获取模块采集日志数据,并控制处理模块从日志数据中提取出URL及相关参数;控制器还用于控制处理模块根据预定URL从URL中筛选出目的URL,以及控制处理模块根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。本发明的基于CDN的网页内容感知系统具有全面的、实时性高、通用性强的特点。本发明还提出一种基于CDN的网页内容感知方法。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于CDN的网页内容感知系统及方法。
背景技术
内容分发网络(content distribution network,CDN)是指一种通过互联网互相连接的计算机网络系统,CDN节点服务器设置在多个地点、多个不同的网络上。这些节点之间会动态的互相传输内容,优化用户的下载行为,并借此减少内容供应者所需要的带宽成本,改善用户的下载速度,提升用户上网体验,提高系统稳定性。CDN网络虽然具有丰富的大数据样本空间,但其对“网页”这一内容节点感知的信息维度较少,尚不能充分挖掘出隐藏在大数据内容背后更多的价值。
不同于CDN服务提供商,单一互联网公司掌握着自身网页节点的全局信息。若能综合多个数据源,挖掘全网网页节点的深层信息,深度感知网页内容,便能构建起以“网页内容节点”为视角的网络世界评估体系。
对于网页内容感知已有很多相关研究,目前比较常用的方法是首先对网页进行基于HTML或XML或DOM的结构化分析,然后再根据信息在网页上的具体位置将信息从网页中抽取出来。还有基于视觉的分块方法,该方法采用视觉信息对网页进行分块,进而提取网页内容。但是由于不同公司或机构的开发要求以及开发人员的习惯不同,不同公司间的页面结构往往存在很大的差异,即使在网页内容展示效果差距不大、开发语言相同的前提下,在编码方式等方面也存在巨大差异,所以对于需要先进行页面结构分析再进行网页内容提取的方案,通用性较差并且对于海量网页数据缺乏高时效性。基于视觉进行分块的方法通常对于网页的分块太过硬性,灵活度较差。对于面向搜索引擎的网页内容提取方案,多为仅提取正文及标题内容,并没有进一步的深度分析及处理,缺乏对于网页内容深度、全面的感知。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一方面的目的在于提出一种具有全面的、实时性高、通用性强的基于CDN的网页内容感知系统。
本发明第二方面的目的在于提出一种基于CDN的网页内容感知方法。
为了实现上述目的,本发明第一方面实施例的基于CDN的网页内容感知系统包括数据获取模块、数据管理模块、处理模块和控制器。数据获取模块用于采集日志数据。。所述数据管理模块包括第一存储模块,所述第一存储模块存储有索引表,所述索引表包括特定互联网内容提供商的预定URL(uniform resource locator)及预定URL对应的预定页面结构。所述处理模块从所述日志数据中提取出URL及相关参数,根据所述预定URL从所述URL中筛选出目的URL,并根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。控制器用于控制所述数据获取模块采集日志数据,并控制所述处理模块从所述日志数据中提取出URL及相关参数;所述控制器,还用于控制所述处理模块根据所述预定URL从所述URL中筛选出目的URL,以及控制所述处理模块根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;博元森禾信息科技(北京)有限公司,未经北京邮电大学;博元森禾信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410727791.8/2.html,转载请声明来源钻瓜专利网。