[发明专利]文件处理方法、装置及设备在审
| 申请号: | 202011406834.4 | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN114595662A | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 谢建平;颜钦钦 | 申请(专利权)人: | 北大方正集团有限公司;北大方正信息产业集团有限公司 |
| 主分类号: | G06F40/109 | 分类号: | G06F40/109;G06F40/189 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 董建姣;刘芳 |
| 地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文件 处理 方法 装置 设备 | ||
本申请实施例提供一种文件处理方法、装置及设备,该方法包括:获取第一文件,所述第一文件为第一格式;在所述第一文件中获取至少一个目标文件段,所述目标文件段的类型为预设类型,所述目标文件段为结构化文件段;对所述第一文件中的所述至少一个目标文件段进行标记处理,得到中间文件;将所述中间文件转换为第二格式的第二文件;根据所述至少一个目标文件段对所述第二文件进行结构化处理,得到结构化文件。提高了第二文件结构化处理的准确度。
技术领域
本申请涉及数字出版技术领域,尤其涉及一种文件处理方法、装置及设备。
背景技术
在出版行业中为了便于印刷出版,许多专业期刊的文献是用LaTeX(排版系统)的格式进行书写。
目前,将LaTeX文件转换为PDF(Portable Document Format,可携带文档格式)文件后,需要对PDF文件进行结构化处理,以便于存储和阅读。但是,由于LaTeX文件中的复杂对象(公式、表格)的编号以及文件中的引用与PDF文件中的内容并不是完全一样的,使得直接对转换后的PDF文件进行结构化处理时,复杂对象会出现排版错误的情况,进而导致对复杂对象结构化处理的准确度较低。
发明内容
本申请实施例提供一种文件处理方法、装置及设备,用于解决现有技术中复杂对象结构化处理准确度较低的技术问题。
第一方面,本申请实施例提供一种文件处理方法,该方法包括:
获取第一文件,所述第一文件为第一格式;
在所述第一文件中获取至少一个目标文件段,所述目标文件段的类型为预设类型,所述目标文件段为结构化文件段;
对所述第一文件中的所述至少一个目标文件段进行标记处理,得到中间文件;
将所述中间文件转换为第二格式的第二文件;
根据所述至少一个目标文件段对所述第二文件进行结构化处理,得到结构化文件。
在一种可能的实施方式中,在所述第一文件中获取至少一个目标文件段,包括:
对所述第一文件进行拆分处理,得到多个文件段;
获取每个文件段的类型,所述类型为如下任意一种:文本类型、公式类型、表格类型或图像类型;
根据每个文件段的类型,在所述第一文件中获取所述至少一个目标文件段,所述目标文件段的类型为公式类型或者表格类型。
在一种可能的实施方式中,根据每个文件段的类型,在所述第一文件中获取所述至少一个目标文件段,包括:
在所述多个文件段中获取第一文件段,所述第一文件段的类型为公式类型;
在所述多个文件段中获取第二文件段,所述第二文件段的类型为表格类型;
将所述第二文件段进行结构化处理,得到第三文件段;
确定所述至少一个目标文件段包括所述第一文件段和/或所述第三文件段。
在一种可能的实施方式中,对所述第一文件中的所述至少一个目标文件段进行标记处理,得到中间文件,包括:
在所述第一文件中确定每个目标文件段的起始位置和终止位置;
分别在每个目标文件段的起始位置和终止位置添加预设分隔符,以及对每个目标文件段进行渲染处理,得到所述中间文件。
在一种可能的实施方式中,根据所述至少一个目标文件段对所述第二文件进行结构化处理,得到结构化文件,包括:
在所述第二文件中确定第四文件段和第五文件段,所述第五文件段为进行渲染处理的文件段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北大方正信息产业集团有限公司,未经北大方正集团有限公司;北大方正信息产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011406834.4/2.html,转载请声明来源钻瓜专利网。





