[发明专利]基于倒排索引的大规模数据相似特征检测方法有效

申请号：	202011299602.3	申请日：	2020-11-18
公开（公告）号：	CN112269854B	公开（公告）日：	2022-06-10
发明（设计）人：	钱晨;张顾洪	申请（专利权）人：	浙江大学
主分类号：	G06F16/31	分类号：	G06F16/31;G06K9/62;G06N20/00
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	万尾甜;韩介梅
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于索引大规模数据相似特征检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于倒排索引的大规模数据相似特征检测方法，其特征在于：

①对于关系型数据库中的表格型数据集，数据集的特征即为表格的字段；数据集的所有特征构成了原始特征集，对于原始特征集中的每一个特征：首先将特征对应的数据进行列采样，并构建倒排索引；再将倒排索引-特征作为键-值对，构建哈希表；

②遍历上述哈希表，将哈希表中所有属于同一个键的不同特征提取出来，作为特征子集，对每一个特征子集，将其中包含的特征两两组合成为特征对，所有的特征对构成候选特征集；

③对候选特征集中的每一个特征对，应用对应的相似度度量函数，设定阈值，得到相似性度量结果并加入结果集；

特征按其数据的属性，分为数值型特征和类别型特征两类，对于一个给定的数据集，先对原始特征集拆解，构建数值型原始特征集和类别性原始特征集，并分别执行上述①～③，从而分别得到数值型特征集的结果集和类别型特征集的结果集；

所述的列采样并构建倒排索引方法，其具体方法如下：

1)将特征所对应数据进行随机的列采样，得到采样后数据列；

2)倒排索引构建方法：

对于数值型特征，先计算采样后数据列的均值，然后将采样后数据列中大于均值的值映射为1，小于均值的值映射为-1，其余的值映射为0，映射后的采样后数据列即为对应数值型特征的倒排索引；

对于类别型特征，顺序遍历采样后数据列，将第一个类别取值映射为1，第二个类别取值映射为2…依次递增，映射后的采样后数据列即为对应类别型特征的倒排索引；

③中所述的每一个特征对应用对应的相似度度量函数，设定阈值，得到相似性度量结果并加入结果集，其具体方法如下：

1)对于数值型的特征对，对全列数据应用皮尔森相关系数方法来度量相似性，当特征对中两个特征对应的数据列之间的皮尔森相关系数绝对值大于设定的阈值时，将该特征对标记为相似特征对，并加入结果集当中；

2)对于类别型的特征对，对全列数据应用非重复计数方法来度量相似性，即统计原始数据列中去除重复值后的取值的数目；假设待测的特征对中两个特征F1和F2的非重复计数分别为C1、C2；F1和F2的联合非重复计数为C3；当C1＝C2＝C3时，将该特征对标记为相似特征对，并加入结果集当中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011299602.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载