[发明专利]适用于移动终端的网页处理方法和服务器有效
| 申请号: | 201310202688.7 | 申请日: | 2013-05-28 |
| 公开(公告)号: | CN104182424B | 公开(公告)日: | 2017-09-29 |
| 发明(设计)人: | 甘玉珏;郝颖;杨杰;卢燕青 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 李浩 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 适用于 移动 终端 网页 处理 方法 服务器 | ||
1.一种适用于移动终端的网页处理方法,其特征在于,包括:
根据网页中标记数量和文字数量将所述网页确定为导航页或正文页;
对于导航页,提取所述网页中的商标图片和文字区、导航区、版权声明区和剩余区;
对于正文页,提取所述网页中的商标图片和文字区、正文标题区和正文内容区、版权声明区和剩余区;
将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版;
其中,所述根据网页中标记数量和文字数量将所述网页确定为导航页或正文页包括:
统计所述网页中标记的个数;
统计所述网页中文字的数量;
如果所述网页中文字的数量与所述网页中标记的个数之比大于预定阈值,则确定所述网页为正文页,否则,确定所述网页为导航页。
2.根据权利要求1所述的方法,其特征在于,将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版包括:
将所述正文标题区换行居中排列;将所述正文内容区换行排列,并对所述正文内容区添加“word-break:break-all”属性以适应所述移动终端的显示屏幕的宽度换行
或
对于所述商标图片和文字区中宽度大于所述移动终端的显示屏幕宽度的图片,缩小所述图片使得所述图片的宽度等于所述移动终端的显示屏幕;
或
对于所述导航区中宽度大于所述移动终端的显示屏幕的宽度的超文本标记语言HTML标记对象,将所述HTML标记对象的宽度调整为所述移动终端的显示屏幕的宽度。
3.根据权利要求1所述的方法,其特征在于,将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版包括:
对于导航页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行排列剩余部分,换行居中排列版权声明区;
对于正文页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行居中排列文本标题区,换行排列文本正文区,换行排列剩余部分,换行居中排列版权声明区。
4.根据权利要求1所述的方法,其特征在于,
对于正文页提取所述网页的正文标题区包括:
获取页面的“title”标记包括的文字作为正文标题区;
或
对于正文页提取所述网页的正文内容区包括:
在页面文件对象模型DOM树型结构的“body”标记节点下,忽略脚本和注释,遍历统计各个节点包含的文字数量;
选取值最大的节点和所述节点的子节点作为正文内容区,其中,为所述节点的子节点i包含的文字数量,Nm为所述节点下包括的子节点数量;
或
提取所述网页的商标图片和文字区包括:
在页面DOM树型结构的“body”标记节点下,用商标图片和文字区关键字集合中的关键字遍历匹配节点的属性值;
匹配到节点时,选取值最大的节点及其子节点作为商标图片和文字区,其中,NL为所述节点下包括的匹配到商标图片和文字区关键字的节点数量,Nm为该节点下包括的子节点数量;
或
提取所述网页的导航区包括:
在页面DOM树型结构的“body”标记节点下,定位所有文字数小于5的超级链接,即短链接;
如果定位到短链接,选取值最大的节点及其子节点作为导航区,其中Ns为所述节点包含的短链接数量,Nm为所述节点下包括的子节点数量;
或
提取所述网页的版权声明区包括:
在页面DOM树型结构的“body”标记节点下,用具有版权声明属性的关键字遍历匹配节点的属性值;
如果匹配到节点,选取值最大的节点及其子节点作为版权声明区,其中,NC为所述节点下包括的匹配到版权声明区关键字的节点数量,Nm为所述节点下包括的子节点数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310202688.7/1.html,转载请声明来源钻瓜专利网。





