[发明专利]基于分布式系统对电子表格进行分类的方法和系统及介质有效
申请号: | 202210413217.X | 申请日: | 2022-04-20 |
公开(公告)号: | CN114510912B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 杨胜;黄瑛;袁平;曾海波;唐必成 | 申请(专利权)人: | 佳瑛科技有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174;G06F40/18;G06K9/62 |
代理公司: | 长沙楚为知识产权代理事务所(普通合伙) 43217 | 代理人: | 李大为 |
地址: | 410000 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 系统 电子表格 进行 分类 方法 介质 | ||
1.一种基于分布式系统对电子表格进行分类的方法,其特征在于,所述方法包括:
接收分布式系统上各个用户端所发送的电子表格,并将各个用户端所发送的电子表格存储到任务列表中;
将任务列表中的各个电子表格进行过滤处理,去除无效电子表格;
解析过滤处理后的电子表格的表达结构,所述表达结构采用树形结构表示法;
获取样本数据集,将样本数据集中的每一个样本数据转换成所对应的样本结构,所述样本结构采用树形结构表示法;
对所述电子表格的表达结构和样本数据集所形成的样本结构集进行相似度匹配,获取所述电子表格的表达结构所对应的第一样本结构;
基于第一样本结构解析出所述电子表格在样本结构集中所对应的样本数据;
基于所述样本结构集中所对应的样本数据取所关联的电子表格分类库;
将各个电子表格中的每一电子表格分发到所对应样本数据所关联的电子表格分类库;
所述解析过滤处理后的电子表格的表达结构包括:
从整个电子表格的文本框中提取有效单元格的排布方式;
从有效单元格中提取关键词和电子表格参数,所述电子表格参数包括常量、区域引用、错误值、名称、函数、由操作符连接起来的表达式;
基于排布方式、关键词和电子表格参数得出电子表格的表达结构。
2.如权利要求1所述的基于分布式系统对电子表格进行分类的方法,其特征在于,所述将任务列表中的各个电子表格进行过滤处理,去除无效电子表格包括:
基于用户环境建立针对电子表格的过滤库,所述过滤库中设置有各个无效电子表格的文本库;
基于过滤库对任务列表中的各个电子表格进行过滤处理,去除无效电子表格。
3.如权利要求2所述的基于分布式系统对电子表格进行分类的方法,其特征在于,所述基于用户环境建立针对电子表格的过滤库包括:
基于电子表格文件头设立过文件头过滤词组,并将文件头过滤词组存储在过滤库中,所述电子表格文件头至少包含有文件标识信息、子表数量信息、子表名以及子表在文件中的地址信息;
基于单元格设立单元格过滤元素,所述过滤元素包括关键词过滤词组和单元格过滤参数,并将单元格过滤元素存储在过滤库中。
4.如权利要求3所述的基于分布式系统对电子表格进行分类的方法,其特征在于,所述基于排布方式、关键词和电子表格参数得出电子表格的表达结构包括:
将排布方式形成一棵空的表格结构树;
将有效单元格作为表格结构树的根节点;
将关键词和电子表格参数按照层级关系添加到根节点下作为子节点,并基于关键词和电子表格参数为各个子节点赋值。
5.如权利要求4所述的基于分布式系统对电子表格进行分类的方法,其特征在于,所述对所述电子表格的表达结构和样本数据集所形成的样本结构集进行相似度匹配包括:
从样本结构集按序逐个提取样本结构;
将每个样本结构与所述电子表格的表达结构进行逐层对比,计算每个样本结构与所述电子表格的表达结构之间的相似度值;
提取相似度值最高的样本结构作为第一样本结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳瑛科技有限公司,未经佳瑛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210413217.X/1.html,转载请声明来源钻瓜专利网。