[发明专利]一种混合文档归档方法、归档装置及存储介质在审
| 申请号: | 202011055808.1 | 申请日: | 2020-09-29 |
| 公开(公告)号: | CN112199330A | 公开(公告)日: | 2021-01-08 |
| 发明(设计)人: | 彭健 | 申请(专利权)人: | 广东电网有限责任公司韶关供电局 |
| 主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06K9/62 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 512000 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 混合 文档 归档 方法 装置 存储 介质 | ||
1.一种混合文档归档方法,其特征在于,包括:
获取打印机扫描的混合文档,所述混合文档中包括N份文档,每份文档包括至少一页数据页,N≥2;
对所述混合文档进行文档分离,得到N个文件夹,每个文件夹中存储一份文档的所有数据页;
依次识别每个文件夹中存储的文档的类型,并将所述文件夹存储至该文件夹中存储的文档的类型对应的存档目录文件夹中。
2.根据权利要求1所述的混合文档归档方法,其特征在于,所述N份文档顺序排列,每份文档的首页数据页设有第一标记。
3.根据权利要求2所述的混合文档归档方法,其特征在于,所述对所述混合文档进行文档分离,得到N个文件夹,包括:
通过Python脚本调用图像识别接口API对所述混合文档进行识别,获取所有设有所述第一标记的数据页;
将从第一数据页到第二数据页前一页的数据页放入一个文件夹中,所述第一数据页和第二数据页为相邻的两个设有所述第一标记的数据页、且所述第一数据页位于所述第二数据页之前。
4.根据权利要求1所述的混合文档归档方法,其特征在于,所述N份文档混乱排列或顺序排列,每份文档的所有数据页设有第二标记和第三标记;所述第二标记用于指示数据页属于哪份文档,所述第三标记用于指示数据页在文档中的位置。
5.根据权利要求4所述的混合文档归档方法,其特征在于,所述对所述混合文档进行文档分离,得到N个文件夹,包括:
通过Python脚本调用图像识别接口API对所述混合文档进行识别,将具有相同所述第二标记的数据页放入一个文件夹中,并根据所述第三标记对该文件夹中的数据页进行排序。
6.根据权利要求1所述的混合文档归档方法,其特征在于,所述对所述混合文档进行文档分离,得到N个文件夹,包括:
对历史混合文档进行学习得到训练模型;
根据所述训练模型对所述混合文档进行文档分离,得到N个文件夹。
7.根据权利要求1所述的混合文档归档方法,其特征在于,所述依次识别每个文件夹中存储的文档的类型,包括:
根据每个文件夹中存储的一份文档的所有数据页的元素,依次识别每个文件夹中存储的文档的类型。
8.根据权利要求7所述的混合文档归档方法,其特征在于,所述元素包括:标题元素、合同名元素、结算月份元素中的至少一项。
9.一种混合文档归档装置,其特征在于,包括:
混合文档获取模块,所述混合文档获取模块用于获取打印机扫描的混合文档,所述混合文档中包括N份文档,每份文档包括至少一页数据页,N≥2;
文档分离模块,所述文档分离模块用于对所述混合文档进行文档分离,得到N个文件夹,每个文件夹中存储一份文档的所有数据页;
文档识别与存储模块,所述文档识别与存储模块用于依次识别每个文件夹中存储的文档的类型,并将所述文件夹存储至该文件夹中存储的文档的类型对应的存档目录文件夹中。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的混合文档归档方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司韶关供电局,未经广东电网有限责任公司韶关供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011055808.1/1.html,转载请声明来源钻瓜专利网。





