[发明专利]一种混合文档归档方法、归档装置及存储介质在审
申请号: | 202011055808.1 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112199330A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 彭健 | 申请(专利权)人: | 广东电网有限责任公司韶关供电局 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 512000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 文档 归档 方法 装置 存储 介质 | ||
本发明实施例公开了一种混合文档归档方法、归档装置及存储介质。该混合文档归档方法包括:获取打印机扫描的混合文档,混合文档中包括N份文档,每份文档包括至少一页数据页,N≥2;对混合文档进行文档分离,得到N个文件夹,每个文件夹中存储一份文档的所有数据页;依次识别每个文件夹中存储的文档的类型,并将文件夹存储至该文件夹中存储的文档的类型对应的存档目录文件夹中。通过该方法可以解决现有技术存在人工参与多、操作繁琐、工作效率低以及人力成本较大的问题,实现对混合文档进行自动分割、类型识别及存档的效果。
技术领域
本发明实施例涉及文档自动归类技术,尤其涉及一种混合文档归档方法、归档装置及存储介质。
背景技术
随着企业级系统的建成,地市局的信息化项目主要以信息维护和信息修理项目为主,对这类文档,尤其是月度周期纸质结算文档的电子化存档及分类存放管理逐渐成为一项重要工作。
目前,纸质文档的电子化存档操作流程一般是先把已归档的纸质文件逐份逐页自动扫描,扫描完成后再对整份扫描件利用分割软件进行手动机械分割,最后将分割好的文档保存到事先已建好的电子目录中作为电子存档或系统流程的主要附件。
然而,上述纸质文档的电子化存档操作流程的整个过程都需要人工参与,导致操作繁琐,工作效率低下,人力资源成本大。
发明内容
本发明提供一种混合文档归档方法、归档装置及存储介质,以实现对混合文档进行自动分割、类型识别及存档。
第一方面,本发明实施例提供了一种混合文档归档方法,该混合文档归档方法包括:
获取打印机扫描的混合文档,所述混合文档中包括N份文档,每份文档包括至少一页数据页,N≥2;
对所述混合文档进行文档分离,得到N个文件夹,每个文件夹中存储一份文档的所有数据页;
依次识别每个文件夹中存储的文档的类型,并将所述文件夹存储至该文件夹中存储的文档的类型对应的存档目录文件夹中。
可选地,所述N份文档顺序排列,每份文档的首页数据页设有第一标记。
可选地,所述对所述混合文档进行文档分离,得到N个文件夹,包括:
通过Python脚本调用图像识别接口API对所述混合文档进行识别,获取所有设有所述第一标记的数据页;
将从第一数据页到第二数据页前一页的数据页放入一个文件夹中,所述第一数据页和第二数据页为相邻的两个设有所述第一标记的数据页、且所述第一数据页位于所述第二数据页之前。
可选地,所述N份文档混乱排列或顺序排列,每份文档的所有数据页设有第二标记和第三标记;所述第二标记用于指示数据页属于哪份文档,所述第三标记用于指示数据页在文档中的位置。
可选地,所述对所述混合文档进行文档分离,得到N个文件夹,包括:
通过Python脚本调用图像识别接口API对所述混合文档进行识别,将具有相同所述第二标记的数据页放入一个文件夹中,并根据所述第三标记对该文件夹中的数据页进行排序。
可选地,所述对所述混合文档进行文档分离,得到N个文件夹,包括:
对历史混合文档进行学习得到训练模型;
根据所述训练模型对所述混合文档进行文档分离,得到N个文件夹。
可选地,所述依次识别每个文件夹中存储的文档的类型,包括:
根据每个文件夹中存储的一份文档的所有数据页的元素,依次识别每个文件夹中存储的文档的类型。
可选地,所述元素包括:标题元素、合同名元素、结算月份元素中的至少一项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司韶关供电局,未经广东电网有限责任公司韶关供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011055808.1/2.html,转载请声明来源钻瓜专利网。