首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种海外农业PDF文档内容碎片化方法及系统在审

申请号：	202010062861.8	申请日：	2020-01-19
公开（公告）号：	CN111259830A	公开（公告）日：	2020-06-09
发明（设计）人：	刘敏娟;赵婉婧;王鸑飞;王新;陈莉;刘洪冰;商谦;罗晓斌;蔡陨;段飞虎	申请（专利权）人：	中国农业科学院农业信息研究所
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京三聚阳光知识产权代理有限公司 11250	代理人：	张琳琳
地址：	100081 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种海外农业 pdf 文档内容碎片方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种训练PDF文档信息提取模型的方法，其特征在于，包括如下步骤：

获取进行人工标注信息后的PDF文档；

将标注后的PDF文档转储为图片；

采样图片的图像数据，根据采样区域的大小与宽高比筛选数据，设置预设大小与宽高比组合的锚框，根据预设方法确定与真实边框最接近的锚框，作为匹配锚框；

标注每个匹配锚框的类别；

将标注类别的匹配锚框输入卷积神经网络中进行训练，将训练好的卷积神经网络作为PDF文档信息提取模型。

2.根据权利要求1所述的训练PDF文档信息提取模型的方法，其特征在于，人工标注的信息包括PDF文档中标题、段落、公式、图片及表格。

3.根据权利要求1所述的训练PDF文档信息提取模型的方法，其特征在于，所述设置预设大小与宽高比组合的锚框的步骤，包括：

设置一组锚框大小s1,...sn和一组锚框宽高比r1,...rm，在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框。

4.根据权利要求3所述的训练PDF文档信息提取模型的方法，其特征在于，根据预设方法确定与真实边框最接近的锚框，作为匹配锚框的步骤，包括：

获取锚框与真实边框组成的矩阵其中N_A为锚框的数量，N_B为真实边框的数量，且N_A≥N_B；

获取矩阵X中锚框与真实边界框的交并比中的最大元素；

将最大元素所在行和列的元素丢弃，再确定剩余元素中的最大元素，将其所在行和列的元素丢弃，直至遍历完N_A-N_B个锚框；

给定其中的锚框Ai，根据矩阵的第i行找到与Ai交并比最大的真实边界框Bj，当交并比大于预设阈值时，为锚框Ai分配的真实边界框Bj。

5.根据权利要求1所述的训练PDF文档信息提取模型的方法，其特征在于，每个锚框标注的标签包括：人工标注的锚框的类别及真实边界框相对锚框的偏移量。

6.一种海外农业PDF文档内容碎片化方法，其特征在于，包括：

获取海外农业PDF文档；

将所述海外农业PDF文档转储为图片后，输入根据权利要求1-5任一所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中，检测海外农业PDF文档的碎片化内容；

将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。

7.一种训练PDF文档信息提取模型的系统，其特征在于，包括：

标注信息获取模型，用于获取进行人工标注信息后的PDF文档；

标注图片转储模块，用于将标注后的PDF文档转储为图片；

锚框匹配模块，用于采样图片的图像数据，根据采样区域的大小与宽高比筛选数据；设置预设大小与宽高比组合的锚框，根据预设方法确定与真实边框最接近的锚框，作为匹配锚框；

匹配锚框标注模块，用于标注每个匹配锚框的类别；

模型训练模块，用于将标注类别的匹配锚框输入卷积神经网络中进行训练，将训练好的卷积神经网络作为PDF文档信息提取模型。

8.一种海外农业PDF文档内容碎片化系统，其特征在于，包括：

海外农业PDF文档获取模块，用于获取海外农业PDF文档；

碎片化内容获取模块，用于将所述海外农业PDF文档转储为图片后，输入根据权利要求1-5任一所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中，检测海外农业PDF文档的碎片化内容；

碎片化内容图像转储模块，用于将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所，未经中国农业科学院农业信息研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010062861.8/1.html，转载请声明来源钻瓜专利网。

上一篇：空调器及其低电压检测控制方法与装置
下一篇：一种功率可调、可检偏的452nm倍频系统

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top