[发明专利]文献关键信息的提取方法、装置、计算机设备和存储介质在审
申请号: | 202110509831.1 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113673294A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 张飞;孙腾腾;穆玉芝;项茂清;康健;梁波 | 申请(专利权)人: | 苏州超云生命智能产业研究院有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄丽霞 |
地址: | 215028 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文献 关键 信息 提取 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种文献关键信息的提取方法、装置、计算机设备和存储介质。其方法通过获取待检测的文献图像数据,对文献图像数据进行区域检测,并基于得到的若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序,通过识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块,若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块,并根据文本块对应的文本内容确定每一个文本块对应的文本类型,从而可以基于目标文本类型从文献图像数据中提取关键信息。由于其整个过程无需人为参与,因此,极大地提高了从文献图像数据中提取关键信息的效率。
技术领域
本申请涉及文本识别技术领域,特别是涉及一种文献关键信息的提取方法、装置、计算机设备和存储介质。
背景技术
随着文本识别技术的发展,基于深度学习的文本检测及文本识别技术得到较为快速的发展。
传统技术中,对于提取PDF中的文献内容,通常是通过应用PDF解析算法和Office文件重构算法将该PDF文献转换为对应的可编辑文档。而对于通过扫描图像合成的PDF文献,则难以实现能够保留原有逻辑结构的文献内容的提取。且目前对于文献中正文关键信息的提取,多是通过人眼观察然后进行拷贝实现。
然而,通过解析PDF算法提取文献内容的应用范围较窄,而人工拷贝文献正文关键信息的方式则耗时耗力,导致关键信息的提取效率低。
发明内容
基于此,有必要针对上述通过人工拷贝的方式从文献图像数据中提取关键信息效率低的问题,提供一种文献关键信息的提取方法、装置、计算机设备和存储介质。
一种文献关键信息的提取方法,所述方法包括:
获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
在其中一个实施例中,所述识别所述若干个区域中的文本内容之后,所述方法还包括:对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
在其中一个实施例中,所述对每一个区域中的文本内容进行纠错处理,包括:识别所述区域对应的文本内容中的异常字符;若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。
在其中一个实施例中,所述基于所述困惑度最小的候选文本纠正所述区域中的文本内容,包括:获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。
在其中一个实施例中,所述基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序,包括:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州超云生命智能产业研究院有限公司,未经苏州超云生命智能产业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509831.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置