[发明专利]一种监控系统冗余数据清洗方法在审
| 申请号: | 201910215789.5 | 申请日: | 2019-03-21 |
| 公开(公告)号: | CN110008205A | 公开(公告)日: | 2019-07-12 |
| 发明(设计)人: | 赵国堡;王海英 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215 |
| 代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 林涛 |
| 地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种监控系统冗余数据清洗方法,具体包括以下步骤:计算待处理的数据集的每一个字段的字段区别度,读取监控系统的数据集,得到待检测的数据,字段区别数据库中不同记录的能力,某一字段取不同值的记录个数越多,则该字段的字段区别度越大,涉及数据清洗技术领域。一种监控系统冗余数据清洗方法,使用该方法,加快了关键字排序的速度,适用关联度作和作为判断重复数据的条件,加强了筛选重复记录的准确性,使用滑动区域自适应改变大小,保证了数据的完整度前提下,提高对重复数据清洗的精度,使用改进的重复数据匹配策略在数据记录匹配完整度与数据记录准确度都得到了提高,实现了监控系统对可靠性的需求。 | ||
| 搜索关键词: | 字段 监控系统 冗余数据 重复数据 清洗 数据记录 区别度 数据集 完整度 读取 滑动区域 匹配策略 数据清洗 重复记录 准确度 关联度 自适应 记录 排序 匹配 数据库 筛选 检测 改进 保证 | ||
【主权项】:
1.一种监控系统冗余数据清洗方法,其特征在于:具体包括以下步骤:S1、计算待处理的数据集的每一个字段的字段区别度,读取监控系统的数据集,得到待检测的数据,字段区别数据库中不同记录的能力,某一字段取不同值的记录个数越多,则该字段的字段区别度越大,数据库中记录的数量为W条,每条记录由r个字段组成,对于其中第i个字段Zi,它的区分度计算公式如式(1)所示:
(1);S2、根据字段区别度的值从大到小排序,依次从区分度最大的字段开始选择,对每一个字段,选择该字段的部分或全部,构成最终的排序关键字;S3、在对两条记录中各字段进行匹配时,首先根据区别度大小对字段进行排序,选取前m个字段,算法开始仅对这m个字段进行关联度计算如式(2)所示:
(2) ;S4、将m个字段计算而得的相似度作和统计,与相应事先设定的限制值L作比较,若关联度
大于L就不是重复数据记录则视为非相似重复记录提前结束字段匹配,否则继续剩余字段的比较,实现对非重复数据的加速筛选;S5、根据关键字分配记录比较的滑动区域,将数据按照排序好的关键字进行区分,使相似的记录尽可能地排到一个邻近的区域内排序后的数据集上滑动一个相应大小的窗口;S6、采用不同的关键字多次对记录进行比较,对数据集互不干扰地执行多次关键字排序算法,每次采用不同的排序关键字生成方案;S7、滑动区域的大小可以根据当前滑动区域的数据重复情况而做出动态地调整,当窗口内的数据重复度比较高时,应当扩大窗口尺寸以使得窗口包含更多的记录,对更多的记录进行检测,反之,如果滑动区域内的数据集重复度比较低,即相似重复数据较少,减小滑动区域的大小,所以要针对不同数据量来自适应的改变滑动区域的大小,动态计算滑动区域大小的计算公式如式(3)所示:
(3)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910215789.5/,转载请声明来源钻瓜专利网。





