[发明专利]基于非主属性离群点检测的实体匹配方法和计算机程序有效
申请号: | 201810737888.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108959577B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 曹卫东;王广森;王怀超 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N20/00;G06Q50/30 |
代理公司: | 天津市鼎和专利商标代理有限公司 12101 | 代理人: | 蒙建军 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于非主属性离群点检测的实体匹配方法,属于互联网技术领域,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型快速的筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低记录对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练。本发明在一定程度上克服离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端。 | ||
搜索关键词: | 基于 属性 离群 检测 实体 匹配 方法 计算机 程序 | ||
【主权项】:
1.一种基于非主属性离群点检测的实体匹配方法,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型快速的筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低记录对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练;上述五个步骤具体为:步骤一:对采集的实体数据进行数据预处理;步骤二:收集数据预处理结果,对数据集依据非主属性重叠度和非主属性相似性进行分块;通过分块策略将数据切分为多块,属于不同块的实体将不生成记录对;步骤三:A、对每一个记录对的不同非主属性进行相似度计算;B、将求出的属性相似度序列所形成的矢量;依次添加到特征矩阵M中;C、根据求得特征矩阵M,利用奇异值分解(SVD),M=USVT其中U和V分别为n×n,m×m的酉矩阵,S为n×m对角矩阵;提取矩阵V的前P个列向量,构成矩阵Vm×p;在此基础上,并采用均值法计算每一维的中心值N=[u(sim(Build)),…,u(sim(lat‑log))],u(sim(Build))代表build相似度中所在列的均值利用欧式距离
其中,xi∈M,yi∈N,求出每个序列的离群距离;D、根据求得的离群距离,设定相应的阈值θ,由步骤C中矩阵S的迹乘以一个(0,1)范围内的值来确定,大于该阈值θ的保留下来,小于该阈值θ的舍去,并保存下来;步骤四:根据离群检测模型筛选后的匹配对,使用启发式规则来限制被认为是潜在匹配的配对数量,此过程中,在各个数据集中新建一列,将步骤三中筛选出的非主属性的值合并在一起,将该列称为混合列,使用混合列创建所需的候选集C;通过不同数据集的合并可减少候选集的数量;从候选集C中进行随机采样,获得样本集T,并根据主属性用机器标记抽样候选集,即指定候选对是否是正确的匹配,如果是正确的匹配标为1,否则标记为0;步骤五:使用上一步抽样的候选集,用于训练分类器,针对将要预测目标进行各种机器学习算法的训练,并在机器学习算法进上行实验,所述机器学习算法包括:决策树、随机森林、支持向量积、逻辑回归、朴素贝叶斯,通过实验结果进行对比分析,得到准确率、召回率和准确率和召回率的调和均值最高的匹配器,在得到的最佳匹配器上,进行实体匹配实验,然后使用训练的模型加上相似度进行数据集的匹配,进而得到匹配对,并通过准确率、召回率和准确率和召回率的调和均值(F1值)来评估实验的效率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810737888.5/,转载请声明来源钻瓜专利网。