[发明专利]一种识别表格方向的方法、装置及电子设备有效
| 申请号: | 201910854365.3 | 申请日: | 2019-09-10 |
| 公开(公告)号: | CN112560545B | 公开(公告)日: | 2023-09-22 |
| 发明(设计)人: | 辛洋;苏奕虹;皮霞林 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司 |
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
| 地址: | 519015 广东省珠海市高新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 识别 表格 方向 方法 装置 电子设备 | ||
1.一种识别表格方向的方法,其特征在于,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格;
根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度;
基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格;
将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向;
在所述针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,还包括:
基于待识别表格的行数和列数,确定所述待识别表格的截取长度;
按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
2.根据权利要求1所述的方法,其特征在于,所述基于待识别表格的行数和列数,确定所述待识别表格的截取长度,包括:
从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息,确定为组成所述合并单元格的各最小单元格的特征信息,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度,包括:
根据所述待识别区域的每列最小单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述机器学习模型为随机森林分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910854365.3/1.html,转载请声明来源钻瓜专利网。





