[发明专利]一种文件解析方法及装置在审
申请号: | 202210966117.X | 申请日: | 2022-08-12 |
公开(公告)号: | CN115203131A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 李亚松;尹旗;赵敏全;曹梁;陈影君 | 申请(专利权)人: | 南方电网深圳数字电网研究院有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/16;G06F40/205;G06F40/216;G06F40/30;G06F40/151 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 江银会 |
地址: | 518053 广东省深圳市南山区沙河街道高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 解析 方法 装置 | ||
本发明公开了一种文件解析方法及装置,该方法包括:获取待解析的第一原始文件,并判断第一原始文件是否属于第一预设格式类型;当判断出第一原始文件属于第一预设格式类型时,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件;提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果;根据目标匹配结果执行填充操作,将第一原始文件转化成目标文件。可见,本发明能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文件解析方法及装置。
背景技术
随着信息技术的快速发展,各种系统之间的交互也越来越多。其中,文件作为信息记录的优势载体,系统之间以文件进行交互的方式也越来越多。
在实际应用中,一般由负责人员通过人工读取的方式将文件进行解析,进而输入到其他系统中。这种文件解析方式繁琐,耗时较长,失误率较高,降低了文件解析的准确度及效率。
可见,提供一种文件解析方法以提高文件解析的效率显得尤为重要。
发明内容
本发明提供了一种文件解析方法及装置,能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
为了解决上述技术问题,本发明第一方面公开了一种文件解析方法,所述方法包括:
获取待解析的第一原始文件,并判断所述第一原始文件是否属于第一预设格式类型;
当判断出所述第一原始文件属于所述第一预设格式类型时,对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件;
提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果;
根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
判断预定义文件路径中是否存在可配置文件,其中,所述可配置文件用于获取所述第一预设格式类型以及所述预设字段中的一种或多种组合信息;
当判断出所述预定义文件路径中存在所述可配置文件时,将所述可配置文件进行解析,以得到所述第一预设格式类型以及所述预设字段中的一种或多种组合信息。
作为一种可选的实施方式,在本发明第一方面中,所述对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件,包括:
通过预先确定的系统接口,将所述第一原始文件对应的压缩数据流转化成目标数据流;
根据所述目标数据流的信息,创建所述目标数据流对应的文本构造器;
通过所述文本构造器,将所述目标数据流转化成预设格式文件。
作为一种可选的实施方式,在本发明第一方面中,所述提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果,包括:
通过预设的语义解析模型,提取所述预设格式文件中的特征信息,其中所述特征信息包括至少一种子特征信息;
对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;
从所有所述字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网深圳数字电网研究院有限公司,未经南方电网深圳数字电网研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210966117.X/2.html,转载请声明来源钻瓜专利网。