[发明专利]一种政务元数据PDF文件的元数据抽取方法在审
申请号: | 201910791805.5 | 申请日: | 2019-08-26 |
公开(公告)号: | CN110543844A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 昌攀;曹扬;胥月;张鹏翔 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06K9/62;G06Q50/26;G06T5/00 |
代理公司: | 52114 贵阳睿腾知识产权代理有限公司 | 代理人: | 宋妍丽<国际申请>=<国际公布>=<进入 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 元数据 抽取 元数据信息 模板匹配 文字识别 字段 录入 引擎 取出 | ||
1.一种政务元数据PDF文件的元数据抽取方法,其特征在于:包括以下步骤:
①政务元数据PDF文本:输入PDF文本,将PDF文本中的文本型数据转化成图像型数据,获取全图像型数据PDF文本;
②OCR文字识别:将全图像型数据PDF文本进行预处理,获取全图像型数据PDF文本的文字信息数据;
③文字模板识别:输入文字信息数据,提取字段信息数据,进行文字识别,完成元数据抽取。
2.如权利要求1所述的政务元数据PDF文件的元数据抽取方法,其特征在于:所述步骤①中,输入PDF文本,将PDF文本中的文本型数据转化成图像型数据,通过OCR文字识别引擎识别PDF文本的内容,获取全图像型数据PDF文本。
3.如权利要求1所述的政务元数据PDF文件的元数据抽取方法,其特征在于:所述步骤②分为以下步骤:
(2.1)文本输入:输入全图像型数据PDF文本;
(2.2)模糊处理:对全图像型数据PDF文本进行模糊判断,若全图像型数据PDF文本存在模糊图像,对模糊的图像进行处理,获取清晰的图像,执行步骤(2.3);若全图像型数据PDF文本为清晰的图像,执行步骤(2.3);
(2.3)二值化:对全图像型数据PDF文本进行二值化处理;
(2.4)去噪:对全图像型数据PDF文本进行去噪处理;
(2.5)倾斜校正:对全图像型数据PDF文本进行倾斜判断,若全图像型数据PDF文本倾斜,采用图像倾斜校正算法进行校正,获取无倾斜的全图像型数据PDF文本,进入步骤(2.6);若全图像型数据PDF文本不倾斜,进入步骤(2.6);
(2.6)文字切割:对全图像型数据PDF文本中的文本信息进行切分,将文本信息切分为单个字符;
(2.7)特征提取:采用网格化文字特征提取方法,通过归一处理,对字符进行特征提取,获取13维特征向量;
(2.8)特征匹配:将提取出来的字符13维特征向量与全字集特征库中的数据进行字符特征匹配,选取识别概率最大的一个字;
(2.9)纠错处理:对识别的文字进行纠错处理,若有错位,则更新全字集特征库,若无错位,进入步骤(1.10);
(2.10)文字信息数据:获取文字信息数据。
4.如权利要求1所述的政务元数据PDF文件的元数据抽取方法,其特征在于:所述步骤③分为以下步骤:
(3.1)转化格式:输入文字信息数据,通过OCR文字识别引擎,转化成JSON数据格式;
(3.2)过滤文字信息数据:过滤文字信息数据中的无效字符;
(3.3)替换&:将文字信息数据分为定义、英文名称、数据类型、值域四个属性,将定义和值域替换为&,根据&进行切分,获取目标段落;
(3.4)遍历:遍历目标段落,同时模糊比对目标段落中是否存在“英文名称”、“数据类型”字眼,将满足条件的目标字段标志为待提取字段;
(3.5)切分待提取字段:将待提取的字段使用“:”进行切分,将定义、英文名称、数据类型的字符与其他内容进行切分;
(3.6)提取特定文本数据:采用目标识别的方法,对切分后的每一段的其他内容进行识别和提取,将满足条件的字段保存起来,舍弃长度小于3的字段组;
(3.7)JSON数据格式:将满足条件的字段采用重新装配的方式进行包装,分别添加上“定义”、“名称”、“数据类型”字段,形成新的JSON数据格式;
(3.8)元数据:完成元数据抽取。
5.如权利要求1所述的政务元数据PDF文件的元数据抽取方法,其特征在于:所述步骤③中,通过模板匹配的方式,抽取政务元数据PDF文件中的字段和属性值。
6.如权利要求4所述的政务元数据PDF文件的元数据抽取方法,其特征在于:所述步骤(3.2)中,无效字符包括空格和非法字符。
7.如权利要求4所述的政务元数据PDF文件的元数据抽取方法,其特征在于:所述其他内容为:除了定义、英文名称、数据类型之外的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910791805.5/1.html,转载请声明来源钻瓜专利网。