[发明专利]基于非主属性离群点检测的实体匹配方法和计算机程序有效
申请号: | 201810737888.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108959577B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 曹卫东;王广森;王怀超 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N20/00;G06Q50/30 |
代理公司: | 天津市鼎和专利商标代理有限公司 12101 | 代理人: | 蒙建军 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 属性 离群 检测 实体 匹配 方法 计算机 程序 | ||
1.一种基于非主属性离群点检测的实体匹配方法,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低实体对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练;
上述五个步骤具体为:
步骤一:对采集的实体数据进行数据预处理;具体为:
对数据进行抽取及数据归档和清洗,根据实验的目标,找出不同源数据的共同非主属性,采用增量抽取的方式,并将抽取的数据存到另外的表格;并用正则表达式或自然语言处理技术,去除有明显错误或无意义的字段信息,利用归档计算并统计数据的一些基本信息,从而达到统一的数据组织方式,将实体中杂乱的信息统一为相同的数据结构;
步骤二:收集数据预处理结果,对数据集依据非主属性重叠度和非主属性相似性进行分块;通过分块策略将数据切分为多块,属于不同块的实体将不生成实体对;
步骤三:
A、对每一个实体对的不同非主属性进行相似度计算;
B、将步骤A求出的非主属性相似度序列所形成的矢量;依次添加到特征矩阵M中;
C、根据求得特征矩阵M,利用奇异值分解(SVD),
M=USVT
其中U和V分别为n×n,m×m的酉矩阵,S为n×m对角矩阵;
提取矩阵V的前P个列向量,构成矩阵Vm×p;在此基础上,并采用均值法计算每一维的中心值N=[u(sim(Build)),…,u(sim(lat-log))],u(sim(Build))代表build相似度中所在列的均值,lat-log是经纬度,利用欧式距离:
其中,xi∈M,yi∈N,求出每个序列的离群距离;
D、根据求得的离群距离,设定相应的阈值θ,由步骤C中矩阵S的迹乘以一个(0,1)范围内的值来确定,大于该阈值θ的保留下来,小于该阈值θ的舍去,并保存下来;
步骤四:根据离群检测模型筛选后的匹配对,使用启发式规则来限制被认为是潜在匹配的配对数量,此过程中,在各个数据集中新建一列,将步骤三中筛选出的非主属性的值合并在一起,将该列称为混合列,使用混合列创建所需的候选集C;通过不同数据集的合并可减少候选集的数量;
从候选集C中进行随机采样,获得样本集T,并根据主属性用机器标记抽样候选集,即指定候选对是否是正确的匹配,如果是正确的匹配标为1,否则标记为0;
步骤五:使用上一步抽样的候选集,用于训练分类器,针对将要预测目标进行各种机器学习算法的训练,并在机器学习算法进上行实验,所述机器学习算法包括:决策树、随机森林、支持向量积、逻辑回归、朴素贝叶斯,通过实验结果进行对比分析,得到准确率、召回率和准确率和召回率的调和均值最高的匹配器,在得到的最佳匹配器上,进行实体匹配实验,然后使用训练的模型加上相似度进行数据集的匹配,进而得到匹配对,并通过准确率、召回率和准确率和召回率的调和均值来评估实验的效率。
2.一种实现权利要求1所述基于非主属性离群点检测的实体匹配方法的信息数据处理终端。
3.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行权利要求1所述的基于非主属性离群点检测的实体匹配方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810737888.5/1.html,转载请声明来源钻瓜专利网。