[发明专利]基于神经网络和模板匹配的标准文件信息提取方法及系统在审
申请号: | 202210732053.7 | 申请日: | 2022-06-27 |
公开(公告)号: | CN114842483A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 周鸣乐;蔡明;李刚;李敏 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/10;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 济南格源知识产权代理有限公司 37306 | 代理人: | 刘晓政 |
地址: | 250353 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 模板 匹配 标准 文件 信息 提取 方法 系统 | ||
本发明涉及计算机和标准化领域,本发明的基于神经网络和模板匹配的标准文件信息提取方法及系统,包括:S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本;S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;S3.将归类后的数组结构化,形成结构化数据并存储;S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示。本方案将不可编辑的pdf文件数字化从而形成计算机可处理的结构化数据,实现了标准文件处理的信息化,极大减少了人工录入成本提高了效率。
技术领域
本发明涉及计算机和标准化领域,具体涉及一种将不可编辑的pdf格式标准文件数字化以及提取其中关键指标信息的方法和系统。
背景技术
国家标准指导文件简称标准文件,是规定各项技术实施标准、确定各项产品生产规格的指导性文件。标准文件大多是不可编辑的pdf格式,虽然防止了文件内容被篡改但也带来了文件内容提取的不便。以往标准文件的录入主要依靠人力手工录入,处理效率低、工作内容繁琐、信息化程度低等缺点亟待解决。当前,计算机技术特别是人工智能技术蓬勃发展,引领新一轮产业革命。其中光学字符识别技术可以将图片中文字识别成文本,为标准文件的处理引入信息化技术提供了技术保障。
发明内容
针对上述问题,本发明提供了基于神经网络和模板匹配的标准文件信息提取方法及系统,将标准文件数字化为可编辑的结构化数据,实现了管理人员快捷提取标准文件关键指标信息的目的。
本发明提供如下技术方案:基于神经网络和模板匹配的标准文件信息提取方法,包括如下步骤:
S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能,所述excel文件导出模块,将导出目标文件和标准文件的结构化数据上传至指标信息管理系统。
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。选取若干若干感兴趣图片输入到预设ocr模型中识别图片中文字,所述文字包括待提取指标信息和冗余文字。
在步骤S1中,将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
。
图片只应包含待识别文本,对于与本次识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
··
式中,
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210732053.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗糖尿病并发银屑病的药物
- 下一篇:一种间隔棒线夹的橡胶垫装配机构