[发明专利]一种页面快速转换方法、装置和系统有效
| 申请号: | 201110270268.3 | 申请日: | 2011-09-13 |
| 公开(公告)号: | CN102999511A | 公开(公告)日: | 2013-03-27 |
| 发明(设计)人: | 贾宇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 页面 快速 转换 方法 装置 系统 | ||
1.一种页面快速转换方法,其特征在于,包括:
请求接收步骤,接收用户端页面请求;
页面获取步骤,根据所述请求获取页面文档,并解析所述文档的DOM树结构;
标签过滤步骤,依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;
页面整理步骤,将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架;
页面返回步骤,返回整理后的结果至用户端。
2.如权利要求1所述的方法,其特征在于:
所述的标签过滤步骤具体包括,针对DOM树中的各级标签,执行以下步骤:
初步标签过滤步骤,对于当前层级的子标签,依据标签库对该级子标签进行过滤;
结构型标签过滤步骤,针对过滤后所述保留的结构型标签,依据结构标签词典,对其进行过滤。
3.如权利要求2所述的方法,其特征在于:
所述初步标签过滤步骤包括标签判断步骤:
对于保留的文本标签,将所述的文本标签及其内容和对应的父标签转入页面整理步骤;
对于保留的图像标签,当所述图像标签指示的图像的尺寸大小低于预定尺寸大小阈值,则将所述的图像标签及其内容和对应的父标签转入页面整理步骤;
对于保留的结构型标签,转入结构型标签过滤步骤。
4.如权利要求1所述的方法,其特征在于:
所述的结构标签词典的标签词包括标签id属性和class属性包含的文本中的标签词;其中,所述的标签词根据统计频次选定。
5.如权利要求4所述的方法,其特征在于:
所述的结构型标签过滤步骤具体包括:
查找步骤,针对每一个结构型标签,根据其id属性和/或class属性文本中的标签词,在结构标签词典的标签词中进行匹配查找;
标签相似度计算步骤,根据匹配查找结果,按照标签规则集,计算所述结构型标签与结构型标签词典中标签词的标签相似度;
判断过滤步骤,将计算得到的标签相似度与预置的阈值进行比较,并根据比较结果,对所述结构型标签进行过滤。
6.如权利要求5所述的方法,其特征在于:
所述的标签相似度根据标签文本相似度和标签语义相似度计算得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110270268.3/1.html,转载请声明来源钻瓜专利网。





