[发明专利]一种识别网页编码方法及系统在审
申请号: | 201410776424.7 | 申请日: | 2014-12-15 |
公开(公告)号: | CN104391993A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 高滨 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 网页 编码 方法 系统 | ||
1.一种识别网页编码方法,其特征在于,包括以下步骤:
读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;
获取字符编码集合中待比较字符编码格式的文本中的各个字节值;
将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
2.根据权利要求1所述的方法,其特征在于,将所述网页目标文件划分为第二预设数目段数,按照每一段目标文件所对应读取比例,读取字符流并获取所述字符流中各个字符对应的字节值。
3.根据权利要求1所述的方法,其特征在于,读取网页目标文件的字符流并获取所述字符流中第一预设数目字符中的各个字符对应的字节值。
4.根据权利要求3所述的方法,其特征在于,若第一预设数目为3,则读取网页目标文件的字符流并获取3个字符中的各个字符对应的字节值。
5.根据权利要求4所述的方法,其特征在于,所述3个字符是指字符流中前3个字符、中间3个字符或者最后3个字符。
6.根据权利要求5所述的方法,其特征在于,获取字符编码集合中待比较字符编码格式的文本中的第一预设数目字节对应的字节值。
7.根据权利要求6所述的方法,其特征在于,若第一预设数目为3,待比较字符编码格式为UTF-8编码格式,则获取UTF-8编码格式的文本中的3个字节对应的字节值。
8.根据权利要求7所述的方法,其特征在于,所述3个字节为前3个字节。
9.根据权利要求8所述的方法,其特征在于,若所述3个字符是指字符流中前3个字符,则将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较;
若比较结果为相等,则确定所述待比较字符编码格式为目标编码格式。
10.一种识别网页编码系统,其特征在于,包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块;其中,所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连;
所述字符字节值获取模块,用于读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值并将所述字符流中各个字符对应的字节值发送至所述目标编码格式确定模块;
所述文本字节值获取模块,用于获取字符编码集合中待比较字符编码格式的文本中的各个字节值并将所述待比较字符编码格式的文本中的各个字节值发送至所述目标编码格式确定模块;
所述目标编码格式确定模块,用于将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410776424.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种事件查询处理方法及装置
- 下一篇:一种批量发布产品信息的方法及系统