[发明专利]用于嵌入式浏览器的网页编码语言自动识别方法及装置有效
申请号: | 200710143874.2 | 申请日: | 2007-08-03 |
公开(公告)号: | CN101101606A | 公开(公告)日: | 2008-01-09 |
发明(设计)人: | 谢曼 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
代理公司: | 北京康信知识产权代理有限责任公司 | 代理人: | 尚志峰;吴孟秋 |
地址: | 518057广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 嵌入式 浏览器 网页 编码 语言 自动识别 方法 装置 | ||
1.一种用于嵌入式浏览器的网页编码语言自动识别方法,其特征在于,包括以下步骤:
S102,从所述嵌入式浏览器的协议栈中获取网页数据和协议头;
S104,解析所述网页数据和所述协议头,以获得指明网页编码的元数据;以及
S106,利用从所述网页数据中获取的元数据和从所述协议头中获取的元数据,根据优先级判断第一次文本解析应该使用的编码;
S108,根据所采用的编码解析当前数据块,并统计解析过程中出现的错误,并且在出现错误的情况下,再次选择编码进行解析。
2.根据权利要求1所述的网页编码语言自动识别方法,其特征在于,所述S106包括:
将从所述网页数据获取的元数据或所述协议头中获取的元数据的优先级设置为最高,在其中至少之一存在的情况下,采用该种元数据指示的编码进行解析;在均不存在的情况下,采用从同一网页的其他数据块的网页数据或协议头获取的元数据指示的编码进行解析;在不存在所述同一网页的其他数据块的网页数据和协议头的情况下,采用所述浏览器内置的缺省编码进行解析。
3.根据权利要求2所述的网页编码语言自动识别方法,其特征在于,在所述步骤S108中,在解析无错误的情况下,将采用的编码的优先级设置为最高,在解析出现错误的情况下,继续选择编码进行解析。
4.一种用于嵌入式浏览器的网页编码语言自动识别装置,其特征在于,包括:
数据获取模块,用于从嵌入式浏览器的协议栈中获取部分网页数据和协议头;
数据解析模块,用于解析所述网页数据和所述协议头,以获得指明网页编码的元数据;
编码确定模块,用于利用从所述网页数据中获取的元数据和从所述协议头中获取的元数据,根据优先级判断第一次文本解析应该使用的编码;以及
解析模块,根据所采用的编码解析当前数据块,并统计解析过程中出现的错误,并且在出现错误的情况下,再次选择编码进行解析。
5.根据权利要求4所述的网页编码语言自动识别装置,其特征在于,所述编码确定模块将从所述网页数据获取的元数据或所述协议头中获取的元数据的优先级设置为最高,在其中至少之一存在的情况下,采用该种元数据指示的编码进行解析;在均不存在的情况下,采用从同一网页的其他数据块的网页数据或协议头获取的元数据指示的编码进行解析;以及在不存在所述同一网页的其他数据块的网页数据和协议头的情况下,采用所述浏览器内置的缺省编码进行解析。
6.根据权利要求5所述的网页编码语言自动识别装置,其特征在于,在解析无错误的情况下,所述编码确定模块将采用的编码的优先级设置为最高,在解析出现错误的情况下,所述编码确定模块继续选择编码以进行解析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710143874.2/1.html,转载请声明来源钻瓜专利网。