[发明专利]一种电子商务数据处理方法和系统有效
申请号: | 201810889530.4 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109165119B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 左梅兰;郭子森 | 申请(专利权)人: | 杭州金荔枝科技有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F16/903 |
代理公司: | 杭州创信知识产权代理有限公司 33383 | 代理人: | 兰玉华 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子商务 数据处理 方法 系统 | ||
1.一种电子商务数据处理方法,其特征在于,所述方法包括:
从数据库中读取数据表,并对所述数据表进行备份存档,复制数据到内存中,并将所述数据合并形成多个数据集,其中每个所述数据集中的第一条记录为所述数据集的参考数据;数据量有N条记录,对于每个记录的处理时间消耗为t,则执行完这M条记录的数据处理任务耗时为M*t,将这M条数据分解成M/n个的小的数据集,将这M/n个数据集同时执行数据处理,处理时间耗时为M/n*t;
对所述多个数据集中的数据进行预处理,降低数据的维度,删除冗余或者关联性不大的属性;
在处理器单元内建立多线程,每条所述线程对应一个所述数据集的处理进程,所述多线程同时进行数据处理任务;
建立一个长度为D的窗口,对所述数据集的数据逐条遍历执行字符串匹配运算,将窗口第一条记录与后面的D-1条记录进行比较,对字符串从左侧进行正向最大匹配;
计算所述参考数据与所述数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
根据所述比较结果确定所述其他数据是否保留;
其中根据比较结果确定所述其他数据是否保留具体为:如果所述其他数据的数据相似度值大于或等于所述参考数据相似度值,则将所述其他数据添加至记录集,最后保存至新数据表中;如果得到的数据相似度值Q小于所述参考数据相似度值,从所述数据表中删除所述其他数据;
其中,所述数据相似度值Q的计算公式为:
;;D为所述窗口的长度,为字段i的相似度,p为两个比较字符串的相同字符数,为取两个比较字符串长度的最大值,为字段i占的权重。
2.根据权利要求1所述的方法,其特征在于,其中将所述数据合并形成多个数据集具体为:提取所述数据表中的所述第一条记录,并将所述第一条记录视为新的数据集,并保存下来;分析所述数据表中的第二条记录,通过比较所述第二条记录和当前己经存在的数据集的属性,当匹配时,将所述第二条记录分配到与其相匹配的数据集中;如果这条记录与当前己经存在的所有的数据集都不匹配,则为这条记录创建一个新的数据集,并为其创建匹配属性;不断重复前面两个步骤,直到每条记录都被扫描计算过,最终得到第二条记录多个数据集。
3.一种电子商务数据处理系统,其特征在于,所述系统包括:
合并模块,从数据库中读取数据表,并对所述数据表进行备份存档,复制数据到内存中,并将所述数据合并形成多个数据集,其中每个所述数据集中的第一条记录为该数据集的参考数据;数据量有N条记录,对于每个记录的处理时间消耗为t,则执行完这M条记录的数据处理任务耗时为M*t,将这M条数据分解成M/n个的小的数据集,将这M/n个数据集同时执行数据处理,处理时间耗时为M/n*t;
预处理模块,对所述多个数据集中的数据进行预处理,降低数据的维度,删除冗余或者关联性不大的属性;
处理模块,在处理器单元内建立多线程,每条所述线程对应一个所述数据集的处理进程,所述多线程同时进行数据处理任务;
遍历模块,建立一个长度为D的窗口,对所述数据集逐条遍历执行字符串匹配运算,将窗口第一条记录与后面的D-1条记录进行比较,对字符串从左侧进行正向最大匹配;
计算模块,计算所述参考数据与所述数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
确定模块,根据所述比较结果确定所述其他数据是否保留;
其中所述确定模块,根据所述比较结果确定所述其他数据是否保留,具体为:如果所述其他数据的数据相似度值大于或等于所述参考数据相似度值,则将所述其他数据添加至记录集,最后保存至新数据表中;如果得到的数据相似度值Q小于所述参考数据相似度值,从所述数据表中删除所述其他数据;
其中,所述数据相似度值Q的计算公式为:
;;D为所述窗口的长度,为字段i的相似度,p为两个比较字符串的相同字符数,为取两个比较字符串长度的最大值,为字段i占的权重。
4.根据权利要求3所述的系统,其特征在于,其中将所述数据合并形成多个数据集具体为:提取所述数据表中的所述第一条记录,并将所述第一条记录视为新的数据集,并保存下来;分析所述数据表中的第二条记录,通过比较所述第二条记录和当前己经存在的数据集的属性,当匹配时,将所述第二条记录分配到与其相匹配的数据集中;如果这条记录与当前己经存在的所有的数据集都不匹配,则为这条记录创建一个新的数据集,并为其创建匹配属性;不断重复前面两个步骤,直到每条记录都被扫描计算过,最终得到第二条记录多个数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州金荔枝科技有限公司,未经杭州金荔枝科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810889530.4/1.html,转载请声明来源钻瓜专利网。