[发明专利]文献关键信息的提取方法、装置、计算机设备和存储介质在审

专利信息
申请号: 202110509831.1 申请日: 2021-05-11
公开(公告)号: CN113673294A 公开(公告)日: 2021-11-19
发明(设计)人: 张飞;孙腾腾;穆玉芝;项茂清;康健;梁波 申请(专利权)人: 苏州超云生命智能产业研究院有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 黄丽霞
地址: 215028 江苏省苏州市苏州*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文献 关键 信息 提取 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请涉及一种文献关键信息的提取方法、装置、计算机设备和存储介质。其方法通过获取待检测的文献图像数据,对文献图像数据进行区域检测,并基于得到的若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序,通过识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块,若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块,并根据文本块对应的文本内容确定每一个文本块对应的文本类型,从而可以基于目标文本类型从文献图像数据中提取关键信息。由于其整个过程无需人为参与,因此,极大地提高了从文献图像数据中提取关键信息的效率。

技术领域

本申请涉及文本识别技术领域,特别是涉及一种文献关键信息的提取方法、装置、计算机设备和存储介质。

背景技术

随着文本识别技术的发展,基于深度学习的文本检测及文本识别技术得到较为快速的发展。

传统技术中,对于提取PDF中的文献内容,通常是通过应用PDF解析算法和Office文件重构算法将该PDF文献转换为对应的可编辑文档。而对于通过扫描图像合成的PDF文献,则难以实现能够保留原有逻辑结构的文献内容的提取。且目前对于文献中正文关键信息的提取,多是通过人眼观察然后进行拷贝实现。

然而,通过解析PDF算法提取文献内容的应用范围较窄,而人工拷贝文献正文关键信息的方式则耗时耗力,导致关键信息的提取效率低。

发明内容

基于此,有必要针对上述通过人工拷贝的方式从文献图像数据中提取关键信息效率低的问题,提供一种文献关键信息的提取方法、装置、计算机设备和存储介质。

一种文献关键信息的提取方法,所述方法包括:

获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;

基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;

识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;

若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;

根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。

在其中一个实施例中,所述识别所述若干个区域中的文本内容之后,所述方法还包括:对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。

在其中一个实施例中,所述对每一个区域中的文本内容进行纠错处理,包括:识别所述区域对应的文本内容中的异常字符;若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。

在其中一个实施例中,所述基于所述困惑度最小的候选文本纠正所述区域中的文本内容,包括:获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。

在其中一个实施例中,所述基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序,包括:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州超云生命智能产业研究院有限公司,未经苏州超云生命智能产业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110509831.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top