[发明专利]一种在浏览器中显示网页内容的方法和装置有效
申请号: | 201210274520.2 | 申请日: | 2012-08-03 |
公开(公告)号: | CN103577466A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 张宁;刘钟书;王文明;刘帅;李一山 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 浏览器 显示 网页 内容 方法 装置 | ||
技术领域
本申请涉及网络技术领域,特别涉及一种在浏览器中显示网页内容的方法和装置。
背景技术
当前互联网中,存在大量的内容型网页(例如提供新闻、小说等内容的网页),用户在浏览内容型网页时,主要关注的对象是网页中的文章。在内容型网页中往往包含大量的广告等的正文以外的信息,这些正文以外的信息给用户的阅读带来了很多干扰。
为了减少网页中正文以外的信息给用户带来的干扰,目前,一些浏览器(例如Chrome)使用插件对网页中的广告信息进行过滤,可以在一定程度上减少广告信息对用户的阅读带来的干扰。然而,这种使用插件对广告信息进行过滤的方法只能有限的减少干扰,并不能提供纯粹的阅读模式,使用户在浏览内容型网站时不受无用信息的干扰。
发明内容
有鉴于此,本申请的目的在于提供一种提升浏览器的阅读体验的方法,该方法能够过滤掉网页中正文以外的无用信息。
为了达到上述目的,本申请提供了一种在浏览器中显示网页内容的方法,该方法包括:
获取用户请求读取的网页;
判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。
预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的统一资源定位符URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成文当对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
所述在浏览器中以预设阅读模式输出所述标题和正文的方法为:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
本申请还提供了一种浏览器,该浏览器包括:网页获取单元、正文提取单元、输出单元;
所述网页获取单元,用于获取用户请求读取的网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210274520.2/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法