[发明专利]一种快速准确侦测多次上传的物料清单属于同一产品的方法有效
申请号: | 202011534261.3 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112632953B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 施海昕;刘云锋 | 申请(专利权)人: | 云汉芯城(上海)互联网科技股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F18/22;G06Q10/0875 |
代理公司: | 北京远创理想知识产权代理事务所(普通合伙) 11513 | 代理人: | 卫安乐 |
地址: | 201612 上海市松江区漕河泾开*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 准确 侦测 多次 上传 物料 清单 属于 同一 产品 方法 | ||
本发明涉及数据信息处理技术领域,特别涉及一种快速准确侦测多次上传的物料清单属于同一产品的方法。本发明的一种快速准确侦测多次上传的物料清单属于同一产品的方法,其综合考虑文件名的字符串相似度、文件上传日期差异、BOM条目明细3个维度,从而快速准确的获取多次上传的物料清单是否属于同一产品,提高了侦测容错性和准确性。
技术领域
本发明涉及数据信息处理技术领域,特别涉及一种快速准确侦测多次上传的物料清单属于同一产品的方法。
背景技术
在采购过程中,客户和销售会协商增加/删除/修改BOM(物料清单)文件中的条目明细,然后多次上传。在整理、统计客户和销售上传的BOM时,我们需要知道哪些BOM文件实际是同一产品的BOM,以便于清洗数据,得到唯一准确的信息,本质上,这是一个分组问题。
现有技术下,一般采用按照文件名全字符匹配的方式侦测物料清单,可以找出一些,但找不完整,因为客户和销售通常在文件名加后缀,比如:日期或者版本号。
发明内容
为了解决现有技术的问题,本发明提供了一种快速准确侦测多次上传的物料清单属于同一产品的方法,其综合考虑文件名的字符串相似度、文件上传日期差异、BOM条目明细3个维度,从而快速准确的获取多次上传的物料清单是否属于同一产品,提高了侦测容错性和准确性。
本发明所采用的技术方案如下:
一种快速准确侦测多次上传的物料清单属于同一产品的方法,包括以下步骤:
A、读取物料清单的所有文件名列表;
B、按照用户ID分组,并从第一个用户开始;
C、判断此用户上传的物料清单的次数,如果次数2,则删除记录;如果次数≥2,则计算同用户组内的字符串相似度,基于所述的字符串相似度做聚类分析,并标记文件名的组ID;
D、判断是否有下一个用户,如果有则重复步骤C,如果没有,则去除掉只有一次上传记录的组;
E、对于每个文件名组,计算上传天数差异和物料清单条目明细相似度;
F、最终上传天数差异小和物料清单条目相似度度高的物料清单属于同一产品。
步骤C中,计算字符串相似度选用计算Levenshtein编辑距离的方式进行。
步骤E中,计算物料清单条目明细相似度的具体方法包括:
E1、比较两组物料清单中每行的参数和型号,相同的参数或者型号归为一行相同;
E2、物料清单的相似度=相同行数/平均值(第一组物料清单的行数+第二组物料清单的行数)。
步骤E中,如果天数差异大于N,且所述的物料清单条目明细相似度≤M,则需要将所述的文件名组拆分为不同的子分组,并标注子分组ID;且去除掉只有一次上传记录的子分组。
天数差异值N至少为3天。
天数差异值N为3天,所述的M为0。
先判断所述物料清单条目明细相似度,如果所述的物料清单条目明细相似度不为0,再判断天数差异。
本发明提供的技术方案带来的有益效果是:
本发明的一种快速准确侦测多次上传的物料清单属于同一产品的方法,其利用字符串相似度代替全字符匹配,增加了算法的容错性,能找出更多多次上传的物料清单。同时,比较上传日期和物料清单中的明细条目,根据上传日期差异和物料清单的明细条目的相似度控制算法的准确性,从而方便系统更快更准确的找到多次上传的物料清单是否属于同一产品,进而简化系统显示,提高系统效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云汉芯城(上海)互联网科技股份有限公司,未经云汉芯城(上海)互联网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011534261.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于野外河道的水文测绘监测系统
- 下一篇:加热炉及微波加热装置