[发明专利]一种监控系统冗余数据清洗方法在审
| 申请号: | 201910215789.5 | 申请日: | 2019-03-21 |
| 公开(公告)号: | CN110008205A | 公开(公告)日: | 2019-07-12 |
| 发明(设计)人: | 赵国堡;王海英 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215 |
| 代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 林涛 |
| 地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字段 监控系统 冗余数据 重复数据 清洗 数据记录 区别度 数据集 完整度 读取 滑动区域 匹配策略 数据清洗 重复记录 准确度 关联度 自适应 记录 排序 匹配 数据库 筛选 检测 改进 保证 | ||
1.一种监控系统冗余数据清洗方法,其特征在于:具体包括以下步骤:
S1、计算待处理的数据集的每一个字段的字段区别度,读取监控系统的数据集,得到待检测的数据,字段区别数据库中不同记录的能力,某一字段取不同值的记录个数越多,则该字段的字段区别度越大,数据库中记录的数量为W条,每条记录由r个字段组成,对于其中第i个字段Zi,它的区分度计算公式如式(1)所示:
(1);
S2、根据字段区别度的值从大到小排序,依次从区分度最大的字段开始选择,对每一个字段,选择该字段的部分或全部,构成最终的排序关键字;
S3、在对两条记录中各字段进行匹配时,首先根据区别度大小对字段进行排序,选取前m个字段,算法开始仅对这m个字段进行关联度计算如式(2)所示:
(2) ;
S4、将m个字段计算而得的相似度作和统计,与相应事先设定的限制值L作比较,若关联度大于L就不是重复数据记录则视为非相似重复记录提前结束字段匹配,否则继续剩余字段的比较,实现对非重复数据的加速筛选;
S5、根据关键字分配记录比较的滑动区域,将数据按照排序好的关键字进行区分,使相似的记录尽可能地排到一个邻近的区域内排序后的数据集上滑动一个相应大小的窗口;
S6、采用不同的关键字多次对记录进行比较,对数据集互不干扰地执行多次关键字排序算法,每次采用不同的排序关键字生成方案;
S7、滑动区域的大小可以根据当前滑动区域的数据重复情况而做出动态地调整,当窗口内的数据重复度比较高时,应当扩大窗口尺寸以使得窗口包含更多的记录,对更多的记录进行检测,反之,如果滑动区域内的数据集重复度比较低,即相似重复数据较少,减小滑动区域的大小,所以要针对不同数据量来自适应的改变滑动区域的大小,动态计算滑动区域大小的计算公式如式(3)所示:
(3)。
2.根据权利要求1所述的一种监控系统冗余数据清洗方法,其特征在于:所述步骤S1中的式(1)中的代表数据集中在Zi字段一共有取值数,即如果将数据集按照字段的不同取值进行统计分析,的取值介于0 到1之间,值越高,说明对应的字段对于整体数据集的区别能力越大。
3.根据权利要求1所述的一种监控系统冗余数据清洗方法,其特征在于:所述步骤S3中的式(2)中的式中表示E1与E2两个字段的关联度,E1、E2表示两个字段,表示此字段的值,表示此字段在整个记录中的重要程度。
4.根据权利要求1所述的一种监控系统冗余数据清洗方法,其特征在于:所述步骤S7中的公式(3)中,常数表示自适应滑动区域的大小可以取的最大值,常数表示自适应滑动区域的大小可以取的最小值,表示当前滑动区域的大小,表示下一轮的自适应滑动区域的大小,表示即将滑出滑动区域的记录在数据集中的索引位置,代表数据集中索引为i的记录是否与位置的记录互为重复,若它们重复,则=1,否则=0,可以看出,若当前滑动区域内的记录都是重复记录,则滑动区域大小在下一轮更新为最大值,相反,若当前滑动区域内的记录互不重复,则滑动区域大小更新为最小值,并且距离越远位置的记录对下一个滑动区域大小的影响越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910215789.5/1.html,转载请声明来源钻瓜专利网。





