[发明专利]一种识别网页编码方法及系统在审
申请号: | 201410776424.7 | 申请日: | 2014-12-15 |
公开(公告)号: | CN104391993A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 高滨 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 网页 编码 方法 系统 | ||
技术领域
本发明属于编码识别领域,尤其涉及一种识别网页编码方法及系统。
背景技术
字符编码定义,计算机中的信息包括数据信息和控制信息,数据信息又可分为数值和非数值信息。非数值信息和控制信息包括了字母、各种控制符号、图形符号等,它们都以二进制编码方式存入计算机并得以处理,这种对字母和符号进行编码的二进制代码称为字符代码(Character Code)。
常见的网页编码有ANSI、GBK、GB2312、UTF-8、GB18030和UNICODE;ASCII码的提出,有效的解决了西文文字的信息化问题,但对于汉字字符却完全不适用。为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。汉字编码中现在主要用到的有三类,包括GB2312,GBK和Big5。
一般获取网页编码的方式,可以通过读取页面的meta标签,或是从服务器端返回的response响应消息中携带的编码头信息中获得页面编码,而当meta标签中输入错误编码标识,或服务器端的编码头信息中编码信息错误时,如果用户在对页面按照此编码信息进一步加工时,就会出现乱码现象。
发明内容
本发明提供一种识别网页编码方法及系统,以解决上述问题。
本发明提供一种识别网页编码方法,包括以下步骤:
读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;
获取字符编码集合中待比较字符编码格式的文本中的各个字节值;
将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
本发明还提供一种识别网页编码系统,包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块;其中,所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连;
所述字符字节值获取模块,用于读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值并将所述字符流中各个字符对应的字节值发送至所述目标编码格式确定模块;
所述文本字节值获取模块,用于获取字符编码集合中待比较字符编码格式的文本中的各个字节值并将所述待比较字符编码格式的文本中的各个字节值发送至所述目标编码格式确定模块;
所述目标编码格式确定模块,用于将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
相较于先前技术,根据本发明提供的一种识别网页编码方法及系统,可以准确、快速识别网页目标文件的编码方式。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的识别网页编码方法处理流程图;
图2所示为本发明实施例2的识别网页编码系统结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的识别网页编码方法处理流程图,包括以下步骤:
步骤101:读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;
读取网页目标文件的字符流并获取所述字符流中第一预设数目字符中的各个字符对应的字节值。
若第一预设数目为3,则读取网页目标文件的字符流并获取3个字符中的各个字符对应的字节值。
其中,所述3个字符可以是字符流中前3个字符,也可以是中间3个字符或者是最后3个字符。
将所述网页目标文件划分为第二预设数目段数,按照每一段目标文件所对应读取比例,读取字符流并获取所述字符流中各个字符对应的字节值。
例如:第二预设数目为3。
例如:将所述网页目标文件划分为3段(也即3部分),第1段目标文件所对应的读取比例为20%,第2段目标文件所对应的读取比例为50%,第3段目标文件所对应的读取比例为20%。
也可以在上述3段中,每段目标文件所对应的读取比例相同,例如:读取比例均设为20%。
其中,划分的每一段所包含的字符数可以相等,也可以不相等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410776424.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种事件查询处理方法及装置
- 下一篇:一种批量发布产品信息的方法及系统