[发明专利]基于倒排索引的大规模数据相似特征检测方法有效
申请号: | 202011299602.3 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112269854B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 钱晨;张顾洪 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06K9/62;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 万尾甜;韩介梅 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 索引 大规模 数据 相似 特征 检测 方法 | ||
本发明公开了一种基于倒排索引的大规模数据相似特征检测方法。本发明通过对相应类型的特征数据列进行采样并提取对应的倒排索引,再将倒排索引和特征以键值对的形式建立哈希表,产生候选特征子集,从而达到了特征集合降维的目的;再对降维之后的特征子集中的特征进行两两组合,针对数值型特征和类别性特征,分别应用皮尔森相关系数算法和非重复计数法,得出特征对的相关系数,设定阈值,输出结果。该方法解决了以往需要对原始特征集合做两两组合的弊端,可以将计算时间降低一个数量级,节省大量的资源;同时准确率和召回率也能保持一个极高的水平。
技术领域
本发明属于机器学习及数据挖掘领域,涉及大数据特征工程中特征相似性检测的方法,尤其涉及一种基于倒排索引的大规模数据相似特征检测方法。
背景技术
特征相似性检测(Feature Similarity Detection)是数据挖掘过程中至关重要的一个环节,也是机器学习模型训练的必要过程。原始的数据集中往往存在大量的相似特征,在模型训练过程中会分散特征的重要度,影响特征的筛选,影响模型性能;且增加了不必要的计算开销,浪费大量的资源。
目前主要的特征相似性检测方法,大多需要遍历并两两组合所有的特征进行分析,当原始特征集的规模很大时,组合后得到的特征对集合规模也会非常大,这使得该方法在大规模数据集上表现不佳;或者通过局部敏感哈希(Locality sensitive hash)方法先进行降维再分析相似性,该方法的不足之处在于:虽然降低了数据集的维度,但该方法目前只能应用于类别型(包括数值型经过独热编码后)的特征,无法应用于数值型特征。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于倒排索引的大规模数据相似特征检测方法。本发明方法可以做到降低特征集的维度,进而大幅度减少计算时间,且可以同时应用于类别型和数值型的特征,并保证极高的准确率和召回率。
本发明的目的是通过以下技术方案来实现的:
一种基于倒排索引的大规模数据相似特征检测方法,包括:
1.对于关系型数据库中的表格型数据集,数据集的特征即为表格的字段。数据集的所有特征构成了原始特征集,对于原始特征集中的每一个特征:首先将它所对应的数据进行列采样,并构建倒排索引,再将倒排索引-特征作为哈希表的键-值对;
2.遍历哈希表,将哈希表中所有属于同一个键的不同特征提取出来,作为特征子集。对每一个特征子集,将其中包含的特征两两组合成为特征对,由于每一个特征对中的两个特征都具有相同的倒排索引,因此二者具有较高的概率是一对相似特征。所有的特征对构成了候选特征集;
3.候选特征集中的每一个特征对,应用对应的相似度度量函数,设定阈值,得到相似性度量结果并加入结果集。
特征按其数据属性,可分为数值型特征和类别型特征两类。因此对于一个给定的数据集,我们先对原始特征分类,构建数值型原始特征集和类别性原始特征集,并分别执行上述1~3,分别得到数值型特征集的结果集和类别型特征集的结果集。
上述技术方案中,1中所述的列采样并构建倒排索引方法,其具体方法如下:
1)将特征所对应数据进行随机的列采样,得到采样后数据列;
2)倒排索引构建方法:对于数值型特征,先计算采样后数据列的均值,然后将采样后数据列中大于均值的值映射为1,小于均值的值映射为-1,其余的值映射为0,映射后的采样后数据列即为对应数值型特征的倒排索引;对于类别型特征,顺序遍历采样后数据列,将第一个类别取值映射为1,第二个类别取值映射为2…依次递增,映射后的采样后数据列即为对应类别型特征的倒排索引。
进一步的,3中对每个特征对采用相应的相似性度量函数、阈值设定,加入结果集,其具体方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299602.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置