[发明专利]标记性语言文档的解析方法、解析模块和用户终端有效

申请号：	200710123056.6	申请日：	2007-06-22
公开（公告）号：	CN101071446A	公开（公告）日：	2007-11-14
发明（设计）人：	范颖锋	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京集佳知识产权代理有限公司	代理人：	逯长明
地址：	518044广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标记语言文档解析方法模块用户终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机技术领域，尤其涉及标记性语言文档的解析技术。

背景技术

可扩展标记语言(eXtensible Markup Language，简称XML)是由万维网协会(World Wide Web Consortium，简称W3C)所定义的一种可以创建自定义标签的标记语言，主要用于定义数据本身的结构和数据类型。

当需要对XML文档中的数据信息进行处理时，必须先对XML文档进行解析，识别出XML文档的结构和其中的数据；现有技术中提供一种基于文档对象模型(Document Object Model，简称DOM)的解析方法，在对XML文档进行解析时，DOM解析器读入整个文档，然后在内存中创建与文档内容对应的对象模型，当解析完成时，内存中会生成与XML文档结构对应的DOM对象树，这样就可以根据树的结构，以节点形式对文档中的数据信息进行处理。

由于使用DOM解析XML文档时，会将整个XML文档解析为一个对象树，并存于内存；当XML文档较大，且只需要解析XML文档中一部分数据时，使用DOM进行文档解析的速度会比较慢，效率较低。

发明内容

本发明的实施例要解决的技术问题是提供一种标记性语言文档解析方法、文档解析模块和用户终端。

为解决上述技术问题，本发明的实施例提供以下技术方案：

一种标记性语言文档的解析方法，包括：

在读入的文档内容中顺序获取起始字符为标签起始符，终止字符为标签结束符的子字符串；

若所获取的子字符串相对于多个指定字符串，满足其中一个指定字符串对应的指定条件，则按照预定义的事件处理方法对所述子字符串中的相应内容进行处理。

一种文档解析模块，包括：

元素获取单元，用于在读入的文档内容中顺序获取起始字符为标签起始符，终止字符为标签结束符的子字符串；

元素处理单元，用于在元素获取单元所获取的子字符串相对于多个指定字符串，满足其中一个指定字符串对应的指定条件时，按照预定义的元素事件处理方法对所述子字符串中的相应内容进行处理。

一种用户终端，包括文档解析模块，所述文档解析模块具体包括：

元素获取单元，用于在读入的文档内容中，顺序获取起始字符为标签起始符，终止字符为标签结束符的子字符串；

元素处理单元，用于在元素获取单元所获取的子字符串相对于多个指定字符串，满足其中一个指定字符串对应的指定条件时，按照预定义的事件处理方法对所述子字符串中的相应内容进行处理。

从以上技术方案可以看出，本发明的实施例具有以下优点：

一、节约内存资源，提高解析效率：本发明实施例是在读入文档的过程中即对文档进行解析，不需要将整个文档先读入内存，而现有技术中，使用DOM解析文档时，需要先将整个文档读入内存，因此与现有技术相比，本发明实施例可以节约内存资源；此外，由于在读入文档的过程中即对文档进行解析，因此，解析模块在只接收到一部分文档时，也可以进行解析，而使用DOM解析文档时，需要将整个文档读入内存后才可以进行解析，也就是说，解析模块只有在获得完整的文档后，才能开始处理，因此，与现有技术相比，本发明实施例可以提高解析效率；

二、较好的扩展性：随着XML、WML、HTML等标准的进一步发展，可能不断扩展出新的元素、属性等，在本发明实施例中，对于所获取的子字符串，若相对于已列举的多个指定字符串，满足其中一个指定字符串对应的指定条件，则按照预定义的事件处理方法对所获取的字符串中的相应内容进行处理；当需要将加入对新的元素、属性等的解析时，只需要参照对其他字符串的处理，在将所扩展的新的元素、属性等内容的相关字符串增加到列举部分，而不用对已经定义的事件处理方法进行修改，实现起来较为简单，因此，本发明实施例具有较好的扩展性。

附图说明

图1是本发明标记性语言文档解析方法实施例一的流程图；

图2是本发明文档解析模块实施例的结构图。

具体实施方式

下面以无线标记语言(Wireless Markup Language，简称WML)文档的解析为例，对本发明标记性语言文档解析方法、文档解析模块及用户终端的推荐实施例进行详细说明。

请参考图1本发明标记性语言文档解析方法的实施例一的流程图，包括：

A1、设置剩余字符串的内容为当前读入的文档内容；

A2、在剩余字符串中顺序获取一个起始字符为标签起始符(通常是“<”)，终止字符为标签结束符(通常是“>”)的子字符串；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710123056.6/2.html，转载请声明来源钻瓜专利网。