[发明专利]对UOF文档进行分块转换的方法有效
申请号: | 202111388477.8 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114218896B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 余丹;周韩钰;邢智涣 | 申请(专利权)人: | 慧之安信息技术股份有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/205 |
代理公司: | 北京广技专利代理事务所(特殊普通合伙) 11842 | 代理人: | 安琪 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | uof 文档 进行 分块 转换 方法 | ||
1.对UOF文档进行分块转换的方法,其特征在于,其包括如下步骤:
步骤S1,对ODF文档进行解压处理,从而得到相应的解压ODF文档;
对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;
再对所述XML文档进行解析处理,从而得到相应的文档解析输出结果;
步骤S2,对所述文档解析输出结果进行文档内容纠错后,对所述文档解析输出结果进行样式分析,从而得到关于所述ODF文档的文档属性数据;再对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档;
步骤S3,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将所述文档内容错误数据上传至用户端进行备份后,对所述UOF文档进行打包压缩处理;
其中,在所述步骤S1中,对ODF文档进行解压处理,从而得到相应的解压ODF文档具体包括:
基于开源代码Zip Utils设计形成文档解压缩模块,并将所述文档解压模块上传至计算机终端中运行驱动,从而使所述文档解压缩模块对所述ODF文档进行解压处理,以此得到相应的解压ODF文档;
其中,在所述步骤S1中,对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档具体包括:
对所述解压ODF文档进行扫描,以此确定所述解压ODF文档包含的所有XML文档各自的文档起止数据部分;
根据所述XML文档各自的文档起止数据部分,对所述解压ODF文档进行分块切分,从而获得所述解压ODF文档包含的所有XML文档;
其中,在所述步骤S3中,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据具体包括:
检查所述UOF文档中是否存在文档乱码或者文档缺失,若存在,则对存在文档乱码或者文档缺失对应得到文档区域形成批注,从而标定所述UOF文档中存在的文档乱码部分或者文档缺失部分;
其中,检查所述UOF文档中是否存在文档乱码或者文档缺失具体包括:
判断所述UOF文档中的每一个汉字/数字/英文以及标点符号是否为同一种编码形式,所述UOF文档中的每一个汉字/数字/英文以及标点符号在相同的编码下会存在一个字节数,而在所述ODF文档在解压的过程中还会解压出一个原文档的字节范围,通过判断所述ODF文档中每一个汉字/数字/英文以及标点符号的字节数是否满足所述原文档的字节范围,进而对其进行相应的框选标注,其具体过程为:
步骤S1,利用下面公式(1),判断所述UOF文档中的每一个汉字/数字/英文/标点符号所对应的字节编码是否一致,
在上述公式(1)中,μ表示所述UOF文档中字节编码是否一致的判定值;(Di+1)B表示所述UOF文档中的第i+1个汉字/数字/英文/标点符号所对应的字节编码数,所述字节编码数表示将字节编码种类进行排列,得到每个编码种类的排列号,所述排列号即为所述字节编码数;(Di)B表示所述UOF文档中的第i个汉字/数字/英文/标点符号所对应的字节编码数;n表示所述UOF文档中的汉字/数字/英文/标点符号的总个数;||表示求取绝对值运算;
当μ=0,表示所述UOF文档中所有字节的编码是一致的,此时对所述UOF文档中的所有汉字/数字/英文/标点符号继续进行下面步骤S2;
当μ≠0,表示所述UOF文档中所有字节的编码是不一致的,此时确定出所述UOF文档中使用最多的编码类型,然后对所述UOF文档中不属于最多编码类型的汉字/数字/英文/标点符号进行矩形框选;并对最多编码类型的汉字/数字/英文/标点符号继续进行下面步骤S2;
步骤S2,利用下面公式(2),根据所述原文档的字节范围判断所述UOF文档中的每一个汉字/数字/英文/标点符号的字节数是否在所述原文档的字节范围内,
Fa=[H-(Da)J]×[(Da)J-L] (2)
在上述公式(2)中,Fa表示通过步骤A1进行筛选后的所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数是否在所述原文档的字节范围内的判定值;[L,H]表示所述ODF文档在解压的过程中解压出的原文档的字节范围,L表示字节范围中的字节数最小值,H表示字节范围中的字节数最大值;
当Fa≥0,表示所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数在所述原文档的字节范围内;
当Fa0,表示所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数不在所述原文档的字节范围内,此时对所述UOF文档中第a个汉字/数字/英文/标点符号进行矩形框选;
步骤S3,利用下面公式(3),根据上述步骤S1和S2中对所述UOF文档中汉字/数字/英文/标点符号进行矩形框选的框选个数来对所述框选的区域进行颜色突出显示,
在上述公式(3)中,G表示所述UOF文档框选的区域颜色突出显示的亮度值;Gmin表示所述颜色突出显示的最小亮度值,即肉眼可观察到的颜色最小亮度值;Gmax表示所述颜色突出显示的最大亮度值,即显示设备可显示的最大亮度值;Se表示所述UOF文档中的第e个框选区域内汉字/数字/英文/标点符号的个数;U表示所述UOF文档中的被框选的区域个数;
当亮度值G大于或者等于预设亮度阈值,则确定所述UOF文档中存在文档乱码或者文档缺失,否则,确定所述UOF文档中不存在文档乱码或者文档缺失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧之安信息技术股份有限公司,未经慧之安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111388477.8/1.html,转载请声明来源钻瓜专利网。