[发明专利]一种互联网网页转换方法、系统及设备有效
| 申请号: | 200810065597.2 | 申请日: | 2008-03-19 |
| 公开(公告)号: | CN101246494A | 公开(公告)日: | 2008-08-20 |
| 发明(设计)人: | 陈虓将 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳中一专利商标事务所 | 代理人: | 张全文 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 网页 转换 方法 系统 设备 | ||
技术领域
本发明属于互联网信息处理领域,尤其涉及一种互联网网页转换方法、系统及设备。
背景技术
随着网络技术的发展,无线互联网技术也在迅速地发展,用户通过移动电话等无线终端可以搜索或者浏览无线互联网上的信息。目前,互联网上最多的资源是采用超文本标记语言(HyperText Markup Language,HTML)格式的网页。由于HTML代码不规范、臃肿,无线终端的浏览器需要足够智能和庞大才能够正确显示HTML,为此万维网联盟(World Wide Web Consortium,W3C)制定了扩展的超文本标记语言(Extended Hypertext Markup Language,XHTML)。
由于目前HTML网页的数量远远大于XHTML网页数量,因此用户搜索或者浏览的信息大部分存在于HTML网页中,因此需要将HTML网页转换成XHTML网页,供无线互联网用户直接在无线终端上进行搜索或者浏览。
网页转换的基本原理是获取用户请求,分离出原始的HTML网页地址,系统将自动抓取该网页,并进行解析、转换和存储。目前在将HTML网页转换为XHTML网页时,采用将原HTML网页的内容全部转换为XHTML网页,保留原HTML网页的所有内容的方式。由于转换得到的XHTML网页将原HTML网页的所有内容全部推送给用户,传输的数据量大,造成传输带宽的浪费,增加了服务器的压力。另外,转换得到的XHTML网页中包含了许多用户不需要关注的信息,不便于用户获取真正需要的信息,增加了用户信息搜索或者浏览的时间。同时,无线终端接收和显示用户并不关注的信息,会造成比较大的通信延时,降低了用户获取信息的速度,给用户的信息搜索或者浏览造成很大不便。
发明内容
本发明实施例的目的在于提供一种互联网网页转换方法,旨在解决现有技术在将HTML网页转换为XHTML网页时,保留了原HTML网页的所有内容,造成传输带宽的浪费,增加了服务器的压力,并给用户的信息搜索和浏览造成很大不便的问题。
本发明实施例是这样实现的,一种互联网网页转换方法,所述方法包括下述步骤:
解析读取的互联网网页;
从解析后的互联网网页中提取主题内容;
将提取的主题内容转换输出对应的XHTML网页。
本发明实施例的另一目的在于提供一种互联网网页转换系统,所述系统包括:
网页解析单元,用于解析读取的互联网网页;
网页内容净化单元,用于从解析后的互联网网页中提取主题内容;以及
转换输出单元,用于将提取的主题内容转换输出对应的XHTML网页。
本发明实施例的另一目的在于提供一种包含上述互联网网页转换系统的服务器。
在本发明实施例中,在将互联网网页转化为XHTML网页前,从互联网网页中提取用户关注的主题内容,将提取的主题内容转换成XHTML网页,使得转换得到的网页长度和占用空间大为减少,降低了服务器的带宽压力,可以保证网页的主题内容突出,提高用户浏览网页的速度,便于用户搜索或者浏览信息。
附图说明
图1是本发明实施例提供的互联网网页转换方法的实现流程图;
图2是本发明实施例提供的互联网网页转换系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例在将互联网网页转化为XHTML网页前,从互联网网页中提取用户关注的主题内容,将提取的主题内容转换成XHTML网页,使得转换得到的网页长度和占用空间大为减少,降低了服务器的带宽压力,可以保证网页的主题内容突出,适于用户通过无线终端搜索或者浏览。
图1示出了本发明实施例提供的互联网网页转换方法的实现流程,详述如下:
在步骤S101中,解析读取的互联网网页;
在本发明实施例中,解析时将互联网网页的内容解析成文档对象模型(Document Object Model,DOM)树。
在步骤S102中,从解析后的互联网网页中提取主题内容;
作为本发明的一个实施例,从解析后的互联网网页中提取主题内容时,为了保证主题内容提取的准确性和效率,首先判断互联网网页的类型,将互联网网页进行分类,然后对不同类型的网页进行处理,提取相应的主题内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810065597.2/2.html,转载请声明来源钻瓜专利网。





