[发明专利]表格提取方法、装置、终端及计算机可读存储介质在审
| 申请号: | 201910783743.3 | 申请日: | 2019-08-23 |
| 公开(公告)号: | CN110659346A | 公开(公告)日: | 2020-01-07 |
| 发明(设计)人: | 刘翔;佘昊天 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/383 |
| 代理公司: | 44287 深圳市世纪恒程知识产权代理事务所 | 代理人: | 胡海国 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 查询关键词 表格提取 查询请求 相似度 计算机可读存储介质 相似度匹配 目标表格 数据查询 预设 终端 | ||
本发明公开了一种表格提取方法,包括获取查询请求以及待提取的word文档;根据所述查询请求获得对应的查询关键词;识别所述word文档,获得word文档中各表格对应的表格关键词;将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;提取所述相似度最高的预设个数的表格关键词对应的表格。本发明还提供一种表格提取装置、终端及计算机可读存储介质。本发明提出的技术方案基于数据查询对word中的表格进行提取,能够直接在word文档中提取到需要的目标表格。
技术领域
本发明涉及数据提取技术领域,尤其涉及一种表格提取方法、装置、终端及计算机可读存储介质。
背景技术
目前,通常使用POI(Apache POI)的Table Iterator获取word表格中的数据,但是这样会读取到所有表格的数据集合,用户单从一个表格中单元格的信息无法分辨出这种表是什么表,所以,用户并不能从word文档的多个表格中直接提取到需要的表格。
因此,现有表格提取方法无法直接提取到需要的表格是一种亟待解决的问题。
发明内容
本发明的主要目的在于提供一种表格提取方法、装置、终端及可读存储介质,旨在解决现有的表格提取方法无法直接提取到需要的表格的技术问题。
为实现上述目的,本发明提供一种表格提取方法,所述表格提取方法包括:
获取查询请求以及待提取的word文档;
根据所述查询请求获得对应的查询关键词;
识别所述word文档,获得word文档中各表格对应的表格关键词;
将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取所述相似度最高的预设个数的表格关键词对应的表格。
优选地,所述识别所述word文档,获得word文档中各表格对应的表格关键词的步骤包括:
识别word文档中的表格,获得各表格的内部关键词;
解析word文档的文档类型;
若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词。
优选地,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,包括:
判断各表格对应的外部关键词中是否存在表格的标题;
若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;
若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度。
优选地,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,还包括:
若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;
获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910783743.3/2.html,转载请声明来源钻瓜专利网。





