[发明专利]一种电子商务数据处理方法和系统有效
申请号: | 201810889530.4 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109165119B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 左梅兰;郭子森 | 申请(专利权)人: | 杭州金荔枝科技有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F16/903 |
代理公司: | 杭州创信知识产权代理有限公司 33383 | 代理人: | 兰玉华 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子商务 数据处理 方法 系统 | ||
本发明公开了一种电子商务数据处理方法和系统,通过将电子商务中大量数据根据数据集属性的不同合并成多个数据集,并且对数据预先进行预处理,降低数据维度,建立多条处理线程,合理计算参考数据与其他数据之间的数据相似度值,从而确定数据集中的每个数据是否具有较好的关联度,最终确定是否保留该数据。该方法大大减小算法的时间复杂度,提高资源对象的创建和处理,缩短数据总量的处理时间,减小数据处理的误差。
技术领域
本发明涉及计算机数据处理技术领域,特别涉及一种电子商务数据处理方法和系统。
背景技术
近年来,电子商务蓬勃发展,人们越来越多地使用网络远程购物。在良好的互联网环境下,电子商务发展迅猛,越来越多的零售企业选择电子商务来发展自身业务。电子商务作为一种虚拟的交易方式,在为广大消费者提供便捷的同时,需要很多社会服务环节的配合,它不仅代表一种新的消费体验,也代表了一种零售及其配套服务发展的新业态。与此同时,电子商务平台与信息化息息相关,平台所产生的数据源源不断,数据量呈几何倍数的增长,这些数据可以经由大数据分析后提供给用户更方便快捷的体验。
但是,其中一些数据未进行筛选过滤或者未进行优化处理,保存在数据库表中的数据往往有数据缺失、信息冗余和数据错误等质量问题,这些将直接影响数据分析结果的准确性,极大地降低了平台数据的可用性。而传统的数据整理方法只是针对小规模的数据进行整理,在处理大数据集时,往往具有较低的性能、运算能力不理想、处理时间较长,因此亟待提出针对大数据的处理方法。
发明内容
本发明实施例提供了一种电子商务数据处理方法和系统,将数据库表中的数据进行优化处理,从而解决了现有数据优化处理较低的性能、运算能力不理想、处理时间较长等问题。
为了解决上述问题,本发明公开了如下技术方案:
第一方面,提供一种电子商务数据处理方法,包括:
从数据库中读取数据表,并对所述数据表进行备份存档,复制所述数据到内存中,并将所述数据合并形成多个数据集,其中每个所述数据集中的第一条记录为所述数据集的参考数据;
对所述多个数据集中的数据进行预处理,降低数据的维度,删除冗余或者关联性不大的属性;
在处理器单元内建立多线程,每条所述线程对应一个所述数据集的处理进程,所述多线程同时进行数据处理任务;
建立一个长度为D的窗口,对所述数据集的数据逐条遍历执行字符串匹配运算,将窗口第一条记录与后面的D-1条记录进行比较,对字符串从左侧进行正向最大匹配;
计算所述参考数据与所述数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
根据所述比较结果确定所述其他数据是否保留。
第二方面,提供一种电子商务数据处理系统,包括:
合并模块,从数据库中读取数据表,并对所述数据表进行备份存档,复制所述数据到内存中,并将所述数据合并形成多个数据集,其中每个所述数据集中的第一条记录为该数据集的参考数据;
预处理模块,对所述多个数据集中的数据进行预处理,降低数据的维度,删除冗余或者关联性不大的属性;
处理模块,在处理器单元内建立多线程,每条所述线程对应一个所述数据集的处理进程,所述多线程同时进行数据处理任务;
遍历模块,建立一个长度为D的窗口,对所述数据集逐条遍历执行字符串匹配运算,将窗口第一条记录与后面的D-1条记录进行比较,对字符串从左侧进行正向最大匹配;
计算模块,计算所述参考数据与所述数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州金荔枝科技有限公司,未经杭州金荔枝科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810889530.4/2.html,转载请声明来源钻瓜专利网。