[发明专利]一种识别表格结构的方法、装置及电子设备在审
| 申请号: | 201910876083.3 | 申请日: | 2019-09-17 |
| 公开(公告)号: | CN112528703A | 公开(公告)日: | 2021-03-19 |
| 发明(设计)人: | 辛洋;苏奕虹;皮霞林 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N20/00 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
| 地址: | 519015 广东省珠海市高新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 识别 表格 结构 方法 装置 电子设备 | ||
本发明实施例提供了一种识别表格结构的方法、装置及电子设备,该方法包括:获取该待识别区域中各单元格的单元格内容;基于该待识别区域中各单元格的单元格内容,生成该待识别区域中各单元格的特征信息,根据该待识别区域的每行单元格的特征信息,计算该待识别区域的每相邻两行的相似度;将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格,生成该相似行表格的各行的属性特征;基于该相似行表格的每行的属性特征,确定该相似行表格的各行的结构信息;基于该相似行表格的各行的结构信息,确定该待识别表格的结构信息,采用本发明实施例所述的技术方案,可以对电子表格的表格结构进行自动识别。
技术领域
本发明涉及计算机技术领域中的电子文档技术领域,特别是涉及一种识别表格结构的方法、装置及电子设备。
背景技术
电子表格由多个行组成,根据每一行的表格内容可以将行分为不同的类别,如:行标题、表格内容以及其他,将每一行的类别作为该行的结构信息,该表格中的所有行的结构信息,可以作为该表格的结构信息,基于表格的结构信息,有利于生成该表格的数据分析。
目前,识别表格结构的方法主要有两种:一种是将待识别表格的结构信息默认为指定的结构信息,具体的,将待识别表格的第一行默认为行标题,其他行默认为表格内容;另一种是人工识别表格结构。
但是,在实际使用时,第一种识别方法很难准确的识别表格的结构,第二种识别方法需要基于用户的人工判断,不能自动识别表格的结构,使得用户的体验较差。
发明内容
本发明实施例的目的在于提供一种识别表格结构的方法、装置及电子设备,以实现对电子表格的表格结构进行自动识别。具体技术方案如下:
本发明实施例提供了一种识别表格结构的方法,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
生成所述相似行表格的各行的属性特征;
基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
进一步的,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述生成所述相似行表格的各行的属性特征,包括:
根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876083.3/2.html,转载请声明来源钻瓜专利网。





