[发明专利]一种海外农业PDF文档内容碎片化方法及系统在审
| 申请号: | 202010062861.8 | 申请日: | 2020-01-19 |
| 公开(公告)号: | CN111259830A | 公开(公告)日: | 2020-06-09 |
| 发明(设计)人: | 刘敏娟;赵婉婧;王鸑飞;王新;陈莉;刘洪冰;商谦;罗晓斌;蔡陨;段飞虎 | 申请(专利权)人: | 中国农业科学院农业信息研究所 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张琳琳 |
| 地址: | 100081 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 海外 农业 pdf 文档 内容 碎片 方法 系统 | ||
1.一种训练PDF文档信息提取模型的方法,其特征在于,包括如下步骤:
获取进行人工标注信息后的PDF文档;
将标注后的PDF文档转储为图片;
采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;
标注每个匹配锚框的类别;
将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。
2.根据权利要求1所述的训练PDF文档信息提取模型的方法,其特征在于,人工标注的信息包括PDF文档中标题、段落、公式、图片及表格。
3.根据权利要求1所述的训练PDF文档信息提取模型的方法,其特征在于,所述设置预设大小与宽高比组合的锚框的步骤,包括:
设置一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框。
4.根据权利要求3所述的训练PDF文档信息提取模型的方法,其特征在于,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框的步骤,包括:
获取锚框与真实边框组成的矩阵其中NA为锚框的数量,NB为真实边框的数量,且NA≥NB;
获取矩阵X中锚框与真实边界框的交并比中的最大元素;
将最大元素所在行和列的元素丢弃,再确定剩余元素中的最大元素,将其所在行和列的元素丢弃,直至遍历完NA-NB个锚框;
给定其中的锚框Ai,根据矩阵的第i行找到与Ai交并比最大的真实边界框Bj,当交并比大于预设阈值时,为锚框Ai分配的真实边界框Bj。
5.根据权利要求1所述的训练PDF文档信息提取模型的方法,其特征在于,每个锚框标注的标签包括:人工标注的锚框的类别及真实边界框相对锚框的偏移量。
6.一种海外农业PDF文档内容碎片化方法,其特征在于,包括:
获取海外农业PDF文档;
将所述海外农业PDF文档转储为图片后,输入根据权利要求1-5任一所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;
将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。
7.一种训练PDF文档信息提取模型的系统,其特征在于,包括:
标注信息获取模型,用于获取进行人工标注信息后的PDF文档;
标注图片转储模块,用于将标注后的PDF文档转储为图片;
锚框匹配模块,用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;
匹配锚框标注模块,用于标注每个匹配锚框的类别;
模型训练模块,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。
8.一种海外农业PDF文档内容碎片化系统,其特征在于,包括:
海外农业PDF文档获取模块,用于获取海外农业PDF文档;
碎片化内容获取模块,用于将所述海外农业PDF文档转储为图片后,输入根据权利要求1-5任一所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;
碎片化内容图像转储模块,用于将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010062861.8/1.html,转载请声明来源钻瓜专利网。





