首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于神经网络和模板匹配的标准文件信息提取方法及系统在审

申请号：	202210732053.7	申请日：	2022-06-27
公开（公告）号：	CN114842483A	公开（公告）日：	2022-08-02
发明（设计）人：	周鸣乐;蔡明;李刚;李敏	申请（专利权）人：	齐鲁工业大学
主分类号：	G06V30/19	分类号：	G06V30/19;G06V30/10;G06V10/82;G06N3/04;G06N3/08
代理公司：	济南格源知识产权代理有限公司 37306	代理人：	刘晓政
地址：	250353 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经网络模板匹配标准文件信息提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于神经网络和模板匹配的标准文件信息提取方法，其特征在于包括如下步骤：

S1.获取目标识别图片，将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本，其中关键指标信息包括指标中文名、指标英文名、指标定义信息；

S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配，将某一指标同类信息归类后用一个数组存储；

S3.将归类后的数组结构化，将结果数据组按照术语标题、术语中文名、术语英文名、术语分类，形成结构化数据并存储；

S4.根据所述规则模板和结构化的文本数据，将结构化后的文本数据使用一个表格组件显示，所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。

2.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，

所述的目标为pdf文件，将目标pdf文件拆分成多页图片，得到多张可选目标图片，图片为png格式或jpg格式。

3.根据权利要求2所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，

将pdf文件按页拆分为若干个子文件；将若干个子文件转为png格式高清图片。

4.根据权利要求3所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，

步骤S1中，将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字，遍历识别后的每一行文字，将两两位置余弦夹角小于设定阈值的文字归为同一行，两向量余弦夹角计算公式为:

。

5.根据权利要求4所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，

图片包含待识别文本，与识别无关的文字、表格均不应包含在内；若某一指标一张图无法完全包括全部内容则应将超出部分单独识别；对于表格结构重建所截图部分只应包含表格，对于多个表格如果一张图能完全覆盖那么可以放在一张图中，如果不能覆盖则必须分多次提取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学，未经齐鲁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210732053.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种治疗糖尿病并发银屑病的药物
下一篇：一种间隔棒线夹的橡胶垫装配机构

同类专利

专利分类

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top