[发明专利]一种政务元数据PDF文件的元数据抽取方法在审

专利信息
申请号: 201910791805.5 申请日: 2019-08-26
公开(公告)号: CN110543844A 公开(公告)日: 2019-12-06
发明(设计)人: 昌攀;曹扬;胥月;张鹏翔 申请(专利权)人: 中电科大数据研究院有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/34;G06K9/62;G06Q50/26;G06T5/00
代理公司: 52114 贵阳睿腾知识产权代理有限公司 代理人: 宋妍丽<国际申请>=<国际公布>=<进入
地址: 550000 贵州省贵阳市贵阳*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 元数据 抽取 元数据信息 模板匹配 文字识别 字段 录入 引擎 取出
【说明书】:

发明提供了一种政务元数据PDF文件的元数据抽取方法,对政务元数据PDF文件进行处理,使得不同类型的元数据PDF文件都能被OCR处理;然后,使用OCR文字识别引擎,识别PDF文件中的内容;最后,通过对政务元数据信息的模板匹配方法,抽取出元数据的字段和属性值等重要的信息,录入到系统,从而实现了自动对标准元数据PDF文件的抽取,提高了效率。

技术领域

本发明涉及一种政务元数据PDF文件的元数据抽取方法,属于自然语言处理、人工智能等技术领域,具体涉及一种基于OCR的政务元数据PDF文件的元数据抽取方法。

背景技术

随着国家电子政务、数字政府和数字中国等大数据、智慧政务战略的深入推进,各级政府部门越来越多将政策法规、新闻报道和标准规范通过网络的形式面向公众宣传和推送,由此产生了大量政府元数据标准体系的公文公告,据不完全统计,国家部委在近五年通过政府公开网站发布的公文数量就超过10万篇。在这样的背景下,如何针对这些大量的政务元数据文件,抽取相关的字段名和属性值,录入到系统进行自动比对、参照等操作成为了一个巨大的挑战。

面对日益繁重的政务元数据标准文件信息抽取操作,如何将其中的元数据相关的字段和属性值正确抽取出来变得十分困难,对于一般的标准PDF文件,内容可以是文字型的,也可以是图片型的,没有统一的标准,给机器自动抽取带来了一定的困难;一般情况下采用人工抽取的方法录入到计算机系统,但由于标准文件数量庞大,元数据条目众多,耗费了巨大的人力和物力,效率低下。因此,急需一种抽取准确率高、能自动抽取不同类型PDF文本的元数据方法,基于OCR的政务元数据PDF文件的元数据抽取方法是其中一种可行的解决方案。

在现有技术中,基于OCR的图像类文本识别算法目前较多,当前的政务元数据标准PDF文件的组成内容有文字型和图片型,如何有效整合OCR的识别方法,识别不同的PDF文件,而且对识别后的文字信息采用模板匹配的方式,抽取相应的元数据“定义”、“英文名称”、“数据类型”主要的元数据属性,本申请提出了一种基于OCR的政务PDF文件元数据抽取模型。

发明内容

为解决上述技术问题,本发明提供了一种政务元数据PDF文件的元数据抽取方法,该政务元数据PDF文件的元数据抽取方法能够同时处理文字型和图片型的PDF文件,与传统的OCR引擎相比,增加了PDF识别的文本信息来源,提高了政务领域内元数据文件的抽取精确度和效率。

本发明通过以下技术方案得以实现。

本发明提供的一种政务元数据PDF文件的元数据抽取方法,包括以下步骤:

①政务元数据PDF文本:输入PDF文本,将PDF文本中的文本型数据转化成图像型数据,获取全图像型数据PDF文本;

②OCR文字识别:将全图像型数据PDF文本进行预处理,获取全图像型数据PDF文本的文字信息数据;

③文字模板识别:输入文字信息数据,提取字段信息数据,进行文字识别,完成元数据抽取。

所述步骤①中,输入PDF文本,将PDF文本中的文本型数据转化成图像型数据,通过OCR文字识别引擎识别PDF文本的内容,获取全图像型数据PDF文本。

所述步骤②分为以下步骤:

(2.1)文本输入:输入全图像型数据PDF文本;

(2.2)模糊处理:对全图像型数据PDF文本进行模糊判断,若全图像型数据PDF文本存在模糊图像,对模糊的图像进行处理,获取清晰的图像,执行步骤(2.3);若全图像型数据PDF文本为清晰的图像,执行步骤(2.3);

(2.3)二值化:对全图像型数据PDF文本进行二值化处理;

(2.4)去噪:对全图像型数据PDF文本进行去噪处理;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910791805.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top