[发明专利]基于非主属性离群点检测的实体匹配方法和计算机程序有效

专利信息
申请号: 201810737888.5 申请日: 2018-07-06
公开(公告)号: CN108959577B 公开(公告)日: 2021-12-07
发明(设计)人: 曹卫东;王广森;王怀超 申请(专利权)人: 中国民航大学
主分类号: G06F16/36 分类号: G06F16/36;G06N20/00;G06Q50/30
代理公司: 天津市鼎和专利商标代理有限公司 12101 代理人: 蒙建军
地址: 300300 天*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 属性 离群 检测 实体 匹配 方法 计算机 程序
【权利要求书】:

1.一种基于非主属性离群点检测的实体匹配方法,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低实体对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练;

上述五个步骤具体为:

步骤一:对采集的实体数据进行数据预处理;具体为:

对数据进行抽取及数据归档和清洗,根据实验的目标,找出不同源数据的共同非主属性,采用增量抽取的方式,并将抽取的数据存到另外的表格;并用正则表达式或自然语言处理技术,去除有明显错误或无意义的字段信息,利用归档计算并统计数据的一些基本信息,从而达到统一的数据组织方式,将实体中杂乱的信息统一为相同的数据结构;

步骤二:收集数据预处理结果,对数据集依据非主属性重叠度和非主属性相似性进行分块;通过分块策略将数据切分为多块,属于不同块的实体将不生成实体对;

步骤三:

A、对每一个实体对的不同非主属性进行相似度计算;

B、将步骤A求出的非主属性相似度序列所形成的矢量;依次添加到特征矩阵M中;

C、根据求得特征矩阵M,利用奇异值分解(SVD),

M=USVT

其中U和V分别为n×n,m×m的酉矩阵,S为n×m对角矩阵;

提取矩阵V的前P个列向量,构成矩阵Vm×p;在此基础上,并采用均值法计算每一维的中心值N=[u(sim(Build)),…,u(sim(lat-log))],u(sim(Build))代表build相似度中所在列的均值,lat-log是经纬度,利用欧式距离:

其中,xi∈M,yi∈N,求出每个序列的离群距离;

D、根据求得的离群距离,设定相应的阈值θ,由步骤C中矩阵S的迹乘以一个(0,1)范围内的值来确定,大于该阈值θ的保留下来,小于该阈值θ的舍去,并保存下来;

步骤四:根据离群检测模型筛选后的匹配对,使用启发式规则来限制被认为是潜在匹配的配对数量,此过程中,在各个数据集中新建一列,将步骤三中筛选出的非主属性的值合并在一起,将该列称为混合列,使用混合列创建所需的候选集C;通过不同数据集的合并可减少候选集的数量;

从候选集C中进行随机采样,获得样本集T,并根据主属性用机器标记抽样候选集,即指定候选对是否是正确的匹配,如果是正确的匹配标为1,否则标记为0;

步骤五:使用上一步抽样的候选集,用于训练分类器,针对将要预测目标进行各种机器学习算法的训练,并在机器学习算法进上行实验,所述机器学习算法包括:决策树、随机森林、支持向量积、逻辑回归、朴素贝叶斯,通过实验结果进行对比分析,得到准确率、召回率和准确率和召回率的调和均值最高的匹配器,在得到的最佳匹配器上,进行实体匹配实验,然后使用训练的模型加上相似度进行数据集的匹配,进而得到匹配对,并通过准确率、召回率和准确率和召回率的调和均值来评估实验的效率。

2.一种实现权利要求1所述基于非主属性离群点检测的实体匹配方法的信息数据处理终端。

3.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行权利要求1所述的基于非主属性离群点检测的实体匹配方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810737888.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top