[发明专利]一种监控系统冗余数据清洗方法在审

申请号：	201910215789.5	申请日：	2019-03-21
公开（公告）号：	CN110008205A	公开（公告）日：	2019-07-12
发明（设计）人：	赵国堡;王海英	申请（专利权）人：	哈尔滨理工大学
主分类号：	G06F16/215	分类号：	G06F16/215
代理公司：	南京鼎傲知识产权代理事务所(普通合伙) 32327	代理人：	林涛
地址：	150000 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字段监控系统冗余数据重复数据清洗数据记录区别度数据集完整度读取滑动区域匹配策略数据清洗重复记录准确度关联度自适应记录排序匹配数据库筛选检测改进保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种监控系统冗余数据清洗方法，其特征在于：具体包括以下步骤：

S1、计算待处理的数据集的每一个字段的字段区别度，读取监控系统的数据集，得到待检测的数据，字段区别数据库中不同记录的能力，某一字段取不同值的记录个数越多，则该字段的字段区别度越大，数据库中记录的数量为W条，每条记录由r个字段组成，对于其中第i个字段Zi，它的区分度计算公式如式(1)所示：

(1)；

S2、根据字段区别度的值从大到小排序，依次从区分度最大的字段开始选择，对每一个字段，选择该字段的部分或全部，构成最终的排序关键字；

S3、在对两条记录中各字段进行匹配时，首先根据区别度大小对字段进行排序，选取前m个字段，算法开始仅对这m个字段进行关联度计算如式(2)所示：

(2) ；

S4、将m个字段计算而得的相似度作和统计，与相应事先设定的限制值L作比较，若关联度大于L就不是重复数据记录则视为非相似重复记录提前结束字段匹配，否则继续剩余字段的比较，实现对非重复数据的加速筛选；

S5、根据关键字分配记录比较的滑动区域，将数据按照排序好的关键字进行区分，使相似的记录尽可能地排到一个邻近的区域内排序后的数据集上滑动一个相应大小的窗口；

S6、采用不同的关键字多次对记录进行比较，对数据集互不干扰地执行多次关键字排序算法，每次采用不同的排序关键字生成方案；

S7、滑动区域的大小可以根据当前滑动区域的数据重复情况而做出动态地调整，当窗口内的数据重复度比较高时，应当扩大窗口尺寸以使得窗口包含更多的记录，对更多的记录进行检测，反之，如果滑动区域内的数据集重复度比较低，即相似重复数据较少，减小滑动区域的大小，所以要针对不同数据量来自适应的改变滑动区域的大小，动态计算滑动区域大小的计算公式如式(3)所示：

(3)。

2.根据权利要求1所述的一种监控系统冗余数据清洗方法，其特征在于：所述步骤S1中的式(1)中的代表数据集中在Zi字段一共有取值数，即如果将数据集按照字段的不同取值进行统计分析，的取值介于0 到1之间，值越高，说明对应的字段对于整体数据集的区别能力越大。

3.根据权利要求1所述的一种监控系统冗余数据清洗方法，其特征在于：所述步骤S3中的式(2)中的式中表示E1与E2两个字段的关联度，E1、E2表示两个字段，表示此字段的值，表示此字段在整个记录中的重要程度。

4.根据权利要求1所述的一种监控系统冗余数据清洗方法，其特征在于：所述步骤S7中的公式(3)中，常数表示自适应滑动区域的大小可以取的最大值，常数表示自适应滑动区域的大小可以取的最小值，表示当前滑动区域的大小，表示下一轮的自适应滑动区域的大小，表示即将滑出滑动区域的记录在数据集中的索引位置，代表数据集中索引为i的记录是否与位置的记录互为重复，若它们重复，则=1，否则=0，可以看出，若当前滑动区域内的记录都是重复记录，则滑动区域大小在下一轮更新为最大值，相反，若当前滑动区域内的记录互不重复，则滑动区域大小更新为最小值，并且距离越远位置的记录对下一个滑动区域大小的影响越大。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学，未经哈尔滨理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910215789.5/1.html，转载请声明来源钻瓜专利网。

上一篇：数据质量的检测方法、装置、计算机设备和存储介质
下一篇：一种基于区块链系统的数据处理方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种监控系统冗余数据清洗方法在审

专利文献下载