[发明专利]一种流式数据处理方法和系统在审
| 申请号: | 201810889376.0 | 申请日: | 2018-08-07 |
| 公开(公告)号: | CN109213793A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 左梅兰;郭子森 | 申请(专利权)人: | 泾县麦蓝网络技术服务有限公司 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 施敬勃 |
| 地址: | 242530 安徽省宣*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 流式数据 特征数据 数据处理 流式 预处理 数据相似度 并发访问 参考数据 处理线程 传输性能 错误数据 电子商务 时间减少 数据集中 数据维度 响应请求 关联度 数据集 过滤 抽取 询问 保留 优化 | ||
1.一种流式数据处理方法,其特征在于,所述方法包括:
建立一个长度为S的窗口,利用处理器CPU单元从多条流式数据的当前窗口中抽取概要特征数据;
利用处理器GPU单元建立多个线程并行处理单元,所述多个线程并行处理单元中的一个线程并行处理单元对应于所述多条流式数据中的一条流式数据;
将所述概要特征数据合并形成多个概要特征数据集,其中每个所述概要特征数据集中的第一条记录为所述概要特征数据集的参考数据;
对所述多个概要特征数据集中的数据进行预处理,降低所述数据的维度,删除冗余或者关联性不大的属性;
对所述概要特征数据集的数据逐条遍历执行字符串匹配运算,将所述概要特征数据集的第一条记录与后面的记录进行比较;
计算所述参考数据与所述概要特征数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
根据所述比较结果确定所述其他数据是否保留,保留的数据为所述当前窗口的存档数据。
2.根据权利要求1所述的方法,其特征在于,其中根据比较结果确定所述其他数据是否保留具体为:如果所述其他数据的数据相似度值大于或等于所述参考数据相似度值,则将所述其他数据添加至记录集,最后保存至新数据表中;如果得到的数据相似度值Q小于所述参考数据相似度值,从所述概要特征数据中删除所述其他数据。
3.根据权利要求1所述的方法,其特征在于,其中将所述概要特征数据合并形成多个概要特征数据集具体为:提取所述概要特征数据中的所述第一条记录,并将所述第一条记录视为新的概要特征数据集,并保存下来;分析所述概要特征数据中的第二条记录,通过比较所述第二条记录和当前己经存在的概要特征数据集的属性,当匹配时,将所述第二条记录分配到与其相匹配的概要特征数据集中;如果这条记录与当前己经存在的所有的概要特征数据集都不匹配,则为这条记录创建一个新的概要特征数据集,并为其创建匹配属性;不断重复前面两个步骤,直到每条记录都被扫描计算过,最终得到第二条记录多个概要特征数据集。
4.根据权利要求1所述的方法,其特征在于,其中,所述数据相似度值Q的计算公式为:
D为所述概要特征数据集的数据窗口的总长度,qi为字段i的相似度,p为两个比较字符串的相同字符数,Nmax为取两个比较字符串长度的最大值,mi为字段i占的权重。
5.一种流式数据处理系统,其特征在于,所述系统包括:
抽取模块,建立一个长度为S的窗口,从多条流式数据的当前窗口中抽取概要特征数据;
多线程处理模块,建立多个线程并行处理单元,所述多个线程并行处理单元中的一个线程并行处理单元对应于所述多条流式数据中的一条流式数据;
合并模块,将所述概要特征数据合并形成多个概要特征数据集,其中每个所述概要特征数据集中的第一条记录为所述概要特征数据集的参考数据;
预处理模块,对所述多个概要特征数据集中的数据进行预处理,降低所述数据的维度,删除冗余或者关联性不大的属性;
比较模块,对所述概要特征数据集的数据逐条遍历执行字符串匹配运算,将所述概要特征数据集的第一条记录与后面的记录进行比较;
计算模块,计算所述参考数据与所述概要特征数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
结果确认模块,根据所述比较结果确定所述其他数据是否保留,保留的数据为所述当前窗口的存档数据。
6.根据权利要求5所述的系统,其特征在于,其中根据比较结果确定所述其他数据是否保留具体为:如果所述其他数据的数据相似度值大于或等于所述参考数据相似度值,则将所述其他数据添加至记录集,最后保存至新数据表中;如果得到的数据相似度值Q小于所述参考数据相似度值,从所述概要特征数据中删除所述其他数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泾县麦蓝网络技术服务有限公司,未经泾县麦蓝网络技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810889376.0/1.html,转载请声明来源钻瓜专利网。





