[发明专利]标记语言文档的处理方法及浏览器和网络操作系统在审
申请号: | 201110306697.1 | 申请日: | 2011-10-11 |
公开(公告)号: | CN103049439A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 张富春 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 语言 文档 处理 方法 浏览器 网络 操作系统 | ||
技术领域
本发明涉及互联网数据处理技术领域,尤其涉及一种标记语言文档的处理方法及相应的浏览器和网络操作系统。
背景技术
在互联网中,网页的本质就是标记语言,如超文本标记语言(HTML,Hypertext Markup Language)以及可扩展标记语言(XML,Extensible Markup Language)。HTML和XML是用于描述网页文档的一种标记语言。HTML是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。XML是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如:文字如何处理,画面如何安排,图片如何显示等)。浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误,且不停止其解释执行过程,编制者只能通过显示效果来分析出错原因和出错部位。但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释,因而可能会有不同的显示效果。
HTML可以通过结合使用其他的网络技术,如:脚本语言、计算机图形接口标准(CGI)、组件等,可以创造出功能强大的网页。因而,HTML是网络页面的基础,也就是说互联网是建立在HTML基础之上的。
所述浏览器是指可以显示网页服务器或者文件系统的HTML文档内容,并让用户与这些文件交互的一种软件。网页浏览器主要通过HTTP协议与网页服务器交互并获取网页,这些网页由统一资源定位符(URL)指定,文件格式通常为HTML,并由MIME在HTTP协议中指明。一个网页中可以包括多个文档,每个文档都是分别从服务器获取的。大部分的浏览器本身支持除了HTML之外的广泛的格式,例如JPEG、PNG、GIF等图像格式,并且能够扩展支持众多的插件(plug-ins)。另外,许多浏览器还支持其他的URL类型及其相应的协议,如FTP、Gopher、HTTPS(HTTP协议的加密版本)。HTTP内容类型和URL协议规范允许网页设计者在网页中嵌入图像、动画、视频、声音、流媒体等。
目前,浏览器解析HTML文档的过程包括:
步骤101、将嵌套的一系列HTML标签解析为一颗文档树,即文档对象模型DOM(Document Object Model)树。
DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。换句话说,这是表示和处理一个HTML或可扩展标记语言(XML)文档的常用方法。有一点很重要,DOM的设计是以对象管理组织(OMG)的规约为基础的,因此可以用于任何编程语言。最初人们把它认为是一种让JavaScript在浏览器间可移植的方法,不过DOM的应用已经远远超出这个范围。DOM技术使得用户页面可以动态地变化,如可以动态地显示或隐藏一个元素,改变它们的属性,增加一个元素等,DOM技术使得页面的交互性大大地增强。DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示,不过页面当然可能并不是以这种树的方式具体实现。
DOM树描述了页面上各个元素之间的层级关系和顺序。例如,针对以下HTML文档,浏览器将该HTML文档解析成如图1所示的一颗DOM树。
参见图1,所述HTML文档中的每个标签以及每个标签内的属性,都会转换为DOM文档树中对应的节点。同时,在转换过程中,还需要对格式不标准或错误的部分进行容错处理。在浏览器内存中一般以连续数据结构的形式表示解析后的DOM树,所述连续数据结构例如可以为链表或数组。如图2所示为浏览器内存中以链表的形式表示图1所述DOM树的示意图。
步骤102、浏览器的渲染引擎再将所述DOM树中的各个节点转换为图形,渲染出最终网页的画面。
现有技术中,浏览器每一次打开一个HTML文档,都要执行上述对HTML文档的解析过程。然而,HTML文档的解析是一项繁琐复杂而耗时的过程,同时,HTML文档中的无意义的空白字符增加了文档的体积,使得HTML文档在再次打开或者传输的过程中,耗费了大量的时间和带宽资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110306697.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一撕即毁电子标签
- 下一篇:一种变形词证认系统及证认方法