[发明专利]一种识别表格结构的方法、装置及电子设备在审
| 申请号: | 201910876083.3 | 申请日: | 2019-09-17 |
| 公开(公告)号: | CN112528703A | 公开(公告)日: | 2021-03-19 |
| 发明(设计)人: | 辛洋;苏奕虹;皮霞林 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N20/00 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
| 地址: | 519015 广东省珠海市高新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 识别 表格 结构 方法 装置 电子设备 | ||
1.一种识别表格结构的方法,其特征在于,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
生成所述相似行表格的各行的属性特征;
基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述生成所述相似行表格的各行的属性特征,包括:
根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
3.根据权利要求2所述的方法,其特征在于,每行的属性特征包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
基于所述待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成所述待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;
基于所述待识别区域的每行的特征向量,计算所述待识别区域的相邻两行的相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息,包括:
针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;
如果所述第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;
如果所述第二机器学习识别模型识别该行的结构不是表格内容,则所述行的结构为其他。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876083.3/1.html,转载请声明来源钻瓜专利网。





