[发明专利]基于神经网络和模板匹配的标准文件信息提取方法及系统在审
申请号: | 202210732053.7 | 申请日: | 2022-06-27 |
公开(公告)号: | CN114842483A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 周鸣乐;蔡明;李刚;李敏 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/10;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 济南格源知识产权代理有限公司 37306 | 代理人: | 刘晓政 |
地址: | 250353 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 模板 匹配 标准 文件 信息 提取 方法 系统 | ||
1.基于神经网络和模板匹配的标准文件信息提取方法,其特征在于包括如下步骤:
S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。
2.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。
3.根据权利要求2所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。
4.根据权利要求3所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
步骤S1中,将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
。
5.根据权利要求4所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
图片包含待识别文本,与识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210732053.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗糖尿病并发银屑病的药物
- 下一篇:一种间隔棒线夹的橡胶垫装配机构