[发明专利]基于深度学习的扫描档案图像的自动化归档处理系统及方法在审

申请号：	202110230772.4	申请日：	2021-03-02
公开（公告）号：	CN113065396A	公开（公告）日：	2021-07-02
发明（设计）人：	陈文正;栾杉;李琳;占娜;魏馨霆;王溪	申请（专利权）人：	国网湖北省电力有限公司;湖北华中电力科技开发有限责任公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06F16/55
代理公司：	武汉楚天专利事务所 42113	代理人：	孔敏
地址：	430077 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习扫描档案图像自动化归档处理系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的扫描档案图像的自动化归档处理方法，其特征在于：包括如下步骤：

步骤一：数据预处理与模型训练

将待处理图片分成五类：图纸类、手写类、表格类、照片类以及其他类，同时对每类图片进行文档主体以及文本行的标记；然后将预处理得到的图片使用Object Detection以及Faster CNN模型进行训练，得到图片分类以及文档主体定位模型；

步骤二：主体识别

根据步骤一得到的文档主体定位模型，对输入图片进行文档主体的定位以及文本行的定位，同时将文档主体切分出来，得到文档的文本行部分；

步骤三：倾斜校正

对步骤二得到的文本行部分进行像素点的选取，使用直线拟合的方式拟合一条直线，得到文档整体的倾斜角度，根据此倾斜角度对步骤二切分出来的文档主体进行旋转纠偏，得到纠正后的文档图片；

步骤四：自动化阈值处理与图像重建

对步骤三得到的纠正后的文档图片进行自动化阈值处理以及图像重建，得到标准化输出的图片；

步骤五：表格图片数据的处理

将步骤四标准化输出的图片，挑选一部分表格档案图像，通过labelme对表格的line边缘进行标记；

步骤六：表格分割

将步骤五标记的数据输入Unet网络进行训练，得到表格分割模型，根据表格分割模型将输入图片进行表格的分割，得到单元格的图片；

步骤七：文本行分割

对步骤六分割的每个单元格使用CTPN模型进行文本行分割。

2.如权利要求1所述的基于深度学习的扫描档案图像的自动化归档处理方法，其特征在于：所述步骤三中自动化阈值处理是指根据图片的局部像素分布来建立图片的动态阈值，根据这个动态阈值对图片进行阈值分割处理，以保留图片的绝大多数细节，避免图片内容的丢失；所述步骤三中图像重建是将图片进行标准化输出，根据类别按照A4或A3的大小进行图片的输出。

3.如权利要求1所述的基于深度学习的扫描档案图像的自动化归档处理方法，其特征在于：步骤三中系统在阈值分割部分实现基于局部图像特性的动态阈值处理：令σ_xy和m_xy表示一幅图像中以坐标(x，y)为中心的邻域S_xy所包含的像素集合的标准差和均值，可变局部阈值的通用形式为：

T_xy＝aσ_xy+bm_xy

其中a和b是非负常数，分割后的图像计算如下:

其中f(x，y)是输入图像，该式对图像中的所有像素位置进行求值，并在每个点(x，y)处使用邻域S_xy中的像素计算不同的阈值T_xy。

4.如权利要求1所述的基于深度学习的扫描档案图像的自动化归档处理方法，其特征在于：步骤七中CTPN模型采用开源数据集进行训练，将训练的图片按照99:1划分成训练集和验证集，数据利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸变化随机生成包含汉字、英文字母、数字和标点共5990个字符，每个样本固定10个字符，字符随机截取自语料库中的句子，图片分辨率统一为280x32。

5.如权利要求1所述的基于深度学习的扫描档案图像的自动化归档处理方法，其特征在于：步骤五中挑选出1000张表格档案图像。

6.如权利要求1所述的基于深度学习的扫描档案图像的自动化归档处理方法，其特征在于：步骤六中输入Unet进行训练，迭代次数为80000次。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网湖北省电力有限公司;湖北华中电力科技开发有限责任公司，未经国网湖北省电力有限公司;湖北华中电力科技开发有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110230772.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习的扫描档案图像的自动化归档处理系统及方法在审

专利文献下载