[发明专利]电子卷宗的文件分类方法、装置及电子设备在审
| 申请号: | 201911058977.8 | 申请日: | 2019-11-01 |
| 公开(公告)号: | CN110826619A | 公开(公告)日: | 2020-02-21 |
| 发明(设计)人: | 赵岳;贾昌鑫;贺敏;刘明;付阳;张学来;张云仙 | 申请(专利权)人: | 北京华宇信息技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N3/04 |
| 代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
| 地址: | 100084 北京市海淀区中关村*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电子 卷宗 文件 分类 方法 装置 电子设备 | ||
本公开实施例中提供了一种电子卷宗的文件分类方法、装置及电子设备,属于图像处理技术领域,该方法包括:接收待分类的电子卷宗的全部材料页对应的图像;对每个材料页的图像进行预处理,得到每个材料页对应图像的版面类型,其中,所述版面类型包括首页、中间页和尾页;对所述电子卷宗的全部首页图像进行文字识别;依据所述电子卷宗对应的全部首页图像的文字识别结果进行预设规则的文件类别匹配,得到每个首页图像对应文件的文件类别。通过本公开的处理方案,提高了电子卷宗的文件分类的效率和计算资源的利用率。
技术领域
本公开涉及图像处理技术领域,尤其涉及一种电子卷宗的文件分类方法、装置及电子设备。
背景技术
长期以来,法院电子卷宗的整理工作都是由人工完成,由于案件的卷宗通常较大,这部分工作非常耗费法院的人力。随着近年来深度学习技术的发展,计算机视觉和模式识别都有了很大的进步,可以通过规则引擎和人工智能技术(Artificial Intelligence,简称AI)实现电子卷宗的自动识别分类,但是现有的技术方案依次进行全部页面的识别,需要的时间较长,占用的计算资源较高。
可见,现有的电子卷宗的文件分类方法存在时间较长,占用的计算资源较高的问题。
发明内容
有鉴于此,本公开实施例提供一种电子卷宗的文件分类方法,至少部分解决现有技术中存在的问题。
第一方面,本公开实施例提供了一种电子卷宗的文件分类方法,所述方法包括:
接收待分类的电子卷宗的全部材料页对应的图像;
对每个材料页的图像进行预处理,得到每个材料页对应图像的版面类型,其中,所述版面类型包括首页、中间页和尾页;
对所述电子卷宗的全部首页图像进行文字识别;
依据所述电子卷宗对应的全部首页图像的文字识别结果进行预设规则的文件类别匹配,得到每个首页图像对应文件的文件类别。
根据本公开实施例的一种具体实现方式,所述预处理包括图像分类、图像空白页检测和图像版面分类。
根据本公开实施例的一种具体实现方式,所述对每个材料页的图像进行预处理,得到每个材料页对应图像的版面类型的步骤之前,所述方法还包括:
建立图像版面分类模型;
所述对每个材料页的图像进行预处理,得到每个材料页对应图像的版面类型的步骤,包括:
将所述电子卷宗对应的每个材料页对应的图像输入所述图像版面分类模型,得到每个材料页对应图像的版面类型。
根据本公开实施例的一种具体实现方式,所述建立图像版面分类模型的步骤,包括:
利用预设数量的样本数据训练卷积神经网络,得到能够对图像进行版面分类的所述图像版面分类模型,其中,所述样本数据至少包括首页图像、中间页图像和尾页图像。
根据本公开实施例的一种具体实现方式,所述依据所述电子卷宗对应的全部首页图像的文字识别结果进行预设规则的文件类别匹配,得到每个首页图像对应文件的文件类别的步骤,包括:
依据所述电子卷宗的全部首页图像确定所述电子卷宗包含的全部文件,其中,每个首页图像对应一个文件,每个文件均包括页数依次邻接的首页图像、中间页图像和尾页图像;
依据每个文件首页图像的文字识别结果进行预设规则的文件类别匹配,得到所述首页图像对应文件的文件类别。
根据本公开实施例的一种具体实现方式,其特征在于,所述预处理得到的图像类型包括附件类型图像;所述对每个材料页的图像进行预处理,得到每个材料页对应图像的版面类型的步骤还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华宇信息技术有限公司,未经北京华宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911058977.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种终端壳体组件及终端
- 下一篇:一种输送装置





