[发明专利]一种环球信息网WWW页面处理方法和装置有效
| 申请号: | 201010586269.4 | 申请日: | 2010-12-03 |
| 公开(公告)号: | CN102486799A | 公开(公告)日: | 2012-06-06 |
| 发明(设计)人: | 阮曙东;徐羽;彭默 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环球 信息网 www 页面 处理 方法 装置 | ||
1.一种环球信息网WWW页面处理方法,其特征在于,包括:
确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
如果未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
3.根据权利要求1或2所述的方法,其特征在于,所述针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存包括:
针对每个网站X,分别进行以下处理:
根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;
将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;
将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存。
4.根据权利要求1或2所述的方法,其特征在于,所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据包括:
针对抓取到的每个WWW页面Y,分别进行以下处理:
将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;
针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;
将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
5.根据权利要求1或2所述的方法,其特征在于,该方法进一步包括:保存每个页面模板的统一资源定位符URL;
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,进一步包括:根据抓取到的每个WWW页面的URL确定其对应的页面模板。
6.根据权利要求1或2所述的方法,其特征在于,所述终端为手机终端。
7.一种环球信息网WWW页面处理装置,其特征在于,包括:
第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端。
8.根据权利要求7所述的装置,其特征在于,所述第二处理单元进一步用于,如果所述第一处理单元中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010586269.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:圆形工件线割治具
- 下一篇:可微调开口尺寸的成型模具





