[发明专利]电子卷宗的文件分类方法、装置及电子设备在审

申请号：	201911058977.8	申请日：	2019-11-01
公开（公告）号：	CN110826619A	公开（公告）日：	2020-02-21
发明（设计）人：	赵岳;贾昌鑫;贺敏;刘明;付阳;张学来;张云仙	申请（专利权）人：	北京华宇信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/00;G06N3/04
代理公司：	北京中索知识产权代理有限公司 11640	代理人：	胡大成
地址：	100084 北京市海淀区中关村***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电子卷宗文件分类方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例中提供了一种电子卷宗的文件分类方法、装置及电子设备，属于图像处理技术领域，该方法包括：接收待分类的电子卷宗的全部材料页对应的图像；对每个材料页的图像进行预处理，得到每个材料页对应图像的版面类型，其中，所述版面类型包括首页、中间页和尾页；对所述电子卷宗的全部首页图像进行文字识别；依据所述电子卷宗对应的全部首页图像的文字识别结果进行预设规则的文件类别匹配，得到每个首页图像对应文件的文件类别。通过本公开的处理方案，提高了电子卷宗的文件分类的效率和计算资源的利用率。

技术领域

本公开涉及图像处理技术领域，尤其涉及一种电子卷宗的文件分类方法、装置及电子设备。

背景技术

长期以来，法院电子卷宗的整理工作都是由人工完成，由于案件的卷宗通常较大，这部分工作非常耗费法院的人力。随着近年来深度学习技术的发展，计算机视觉和模式识别都有了很大的进步，可以通过规则引擎和人工智能技术(Artificial Intelligence，简称AI)实现电子卷宗的自动识别分类，但是现有的技术方案依次进行全部页面的识别，需要的时间较长，占用的计算资源较高。

可见，现有的电子卷宗的文件分类方法存在时间较长，占用的计算资源较高的问题。

发明内容

有鉴于此，本公开实施例提供一种电子卷宗的文件分类方法，至少部分解决现有技术中存在的问题。

第一方面，本公开实施例提供了一种电子卷宗的文件分类方法，所述方法包括：

接收待分类的电子卷宗的全部材料页对应的图像；

对每个材料页的图像进行预处理，得到每个材料页对应图像的版面类型，其中，所述版面类型包括首页、中间页和尾页；

对所述电子卷宗的全部首页图像进行文字识别；

依据所述电子卷宗对应的全部首页图像的文字识别结果进行预设规则的文件类别匹配，得到每个首页图像对应文件的文件类别。

根据本公开实施例的一种具体实现方式，所述预处理包括图像分类、图像空白页检测和图像版面分类。

根据本公开实施例的一种具体实现方式，所述对每个材料页的图像进行预处理，得到每个材料页对应图像的版面类型的步骤之前，所述方法还包括：

建立图像版面分类模型；

所述对每个材料页的图像进行预处理，得到每个材料页对应图像的版面类型的步骤，包括：