[发明专利]一种识别表格方向的方法、装置及电子设备有效
申请号: | 201910854365.3 | 申请日: | 2019-09-10 |
公开(公告)号: | CN112560545B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 辛洋;苏奕虹;皮霞林 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 519015 广东省珠海市高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 表格 方向 方法 装置 电子设备 | ||
本发明实施例提供了一种识别表格方向的方法、装置及电子设备,其中,该方法包括:基于获取的待识别区域中各单元格的单元格内容,生成待识别区域中各单元格的特征信息,计算待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到待识别表格的相似行表格,计算待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到待识别表格的相似列表格,将待识别表格的行数和列数、相似行表格的行数以及相似列表格的列数,输入预先训练的机器学习模型,得到待识别表格的表格方向识别结果,采用本发明实施例提供的技术方案,能够更准确的识别待识别表格的表格方向。
技术领域
本发明涉及办公软件识别技术领域,特别是涉及一种识别表格方向的方法、装置及电子设备。
背景技术
目前,识别表格方向是识别表格结构的前提,在识别表格结构前,先识别表格方向,可以更精准的识别表格结构,所谓表格方向,是指表格中的数据是为行分布还是列分布。
现有的识别表格方向的方法主要是通过比较待识别表格的行数和列数的大小,判断该待识别表格是为行分布还是列分布。
但是,如果表格的数据量很大,表格内容的组成也很复杂,则可能导致采用现有的识别表格方向的方法,很难准确的识别出表格的方向。
发明内容
本发明实施例的目的在于提供一种识别表格方向的方法、装置及电子设备,以实现准确识别待识别表格的方向的功能。具体技术方案如下:
本发明实施例提供了一种识别表格方向的方法,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格;
根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度;
基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格;
将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向。
进一步的,在所述针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,还包括:
基于待识别表格的行数和列数,确定所述待识别表格的截取长度;
按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
进一步的,所述基于待识别表格的行数和列数,确定所述待识别表格的截取长度,包括:
从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
进一步的,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910854365.3/2.html,转载请声明来源钻瓜专利网。