[发明专利]基于倒排索引的大规模数据相似特征检测方法有效
申请号: | 202011299602.3 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112269854B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 钱晨;张顾洪 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06K9/62;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 万尾甜;韩介梅 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 索引 大规模 数据 相似 特征 检测 方法 | ||
1.一种基于倒排索引的大规模数据相似特征检测方法,其特征在于:
①对于关系型数据库中的表格型数据集,数据集的特征即为表格的字段;数据集的所有特征构成了原始特征集,对于原始特征集中的每一个特征:首先将特征对应的数据进行列采样,并构建倒排索引;再将倒排索引-特征作为键-值对,构建哈希表;
②遍历上述哈希表,将哈希表中所有属于同一个键的不同特征提取出来,作为特征子集,对每一个特征子集,将其中包含的特征两两组合成为特征对,所有的特征对构成候选特征集;
③对候选特征集中的每一个特征对,应用对应的相似度度量函数,设定阈值,得到相似性度量结果并加入结果集;
特征按其数据的属性,分为数值型特征和类别型特征两类,对于一个给定的数据集,先对原始特征集拆解,构建数值型原始特征集和类别性原始特征集,并分别执行上述①~③,从而分别得到数值型特征集的结果集和类别型特征集的结果集;
所述的列采样并构建倒排索引方法,其具体方法如下:
1)将特征所对应数据进行随机的列采样,得到采样后数据列;
2)倒排索引构建方法:
对于数值型特征,先计算采样后数据列的均值,然后将采样后数据列中大于均值的值映射为1,小于均值的值映射为-1,其余的值映射为0,映射后的采样后数据列即为对应数值型特征的倒排索引;
对于类别型特征,顺序遍历采样后数据列,将第一个类别取值映射为1,第二个类别取值映射为2…依次递增,映射后的采样后数据列即为对应类别型特征的倒排索引;
③中所述的每一个特征对应用对应的相似度度量函数,设定阈值,得到相似性度量结果并加入结果集,其具体方法如下:
1)对于数值型的特征对,对全列数据应用皮尔森相关系数方法来度量相似性,当特征对中两个特征对应的数据列之间的皮尔森相关系数绝对值大于设定的阈值时,将该特征对标记为相似特征对,并加入结果集当中;
2)对于类别型的特征对,对全列数据应用非重复计数方法来度量相似性,即统计原始数据列中去除重复值后的取值的数目;假设待测的特征对中两个特征F1和F2的非重复计数分别为C1、C2;F1和F2的联合非重复计数为C3;当C1=C2=C3时,将该特征对标记为相似特征对,并加入结果集当中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299602.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置