[发明专利]一种基于谓词的多源数据集清洗方法有效
申请号: | 201810578708.3 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108776697B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 谢子哲;李论;刘奇志 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 谓词 数据 清洗 方法 | ||
1.一种基于谓词的多源数据集清洗方法,其特征在于,包括步骤:
(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,
优先级谓词:对于属性Ai和Aj,如果pscore(Ai)<pscore(Aj),则定义一个优先级谓词Prior(Ai,Aj),表示属性Ai的优先级pscore(Ai)高于属性Aj的优先级pscore(Aj);其中,H(Ai)表示属性Ai的香农熵,pn(Ai)表示属性Ai的所有属性值中null值的比例;
状态谓词为:其中,ti表示语句i,表示语句i中属性Ak的属性值,表示预定义的与之间满足的条件,φ(ti,tj)表示预定义的ti与tj之间满足的条件;Stat(Ak)表示当ti和tj满足条件P和φ时,ti的质量高于tj;
交互谓词为:Interδ(A1,…,Al),表示当数据满足条件δ时,该条数据的属性A1,…,Al的属性值质量差;
(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘,得到数据集中的优先级谓词、状态谓词和交互谓词;
(3)根据得到的谓词推导数据集中各数据的属性值可信度,包括步骤:
(3-1)初始化数据集中数据的所有属性值可信度为0,并为每一条数据的各属性值设置影响因子η,η为一个常数;
(3-2)运用状态谓词和交互谓词更新每条数据各属性值的可信度,更新时,先运用状态谓词更新再运用交互谓词更新,或先运用交互谓词更新再运用状态谓词更新;
运用状态谓词更新数据各属性值的可信度的步骤为:两两枚举数据集中的两条数据ti和tj,如果ti和tj在属性Ak上满足状态谓词:则将属性值的可信度减去η;
运用交互谓词更新数据各属性值的可信度的步骤为:遍历数据集中的所有数据,如果一条数据满足某个交互谓词Interδ(A1,…,Al),则将该条数据属性A1,…,Al的属性值的可信度减去η;
(3-3)在步骤(2)完成后,运用优先级谓词更新每条数据的属性值可信度,更新时,按照优先级从高到低的顺序依次执行优先级谓词;
执行优先级谓词Prior(Ai,Aj)的步骤为:若多条数据在属性Aj上的属性值的可信度相同,则将它们按照Ai的属性值可信度做升序排序,按照排序后的顺序,在排在第n位的数据的Aj的属性值可信度上加上n-1;
(3-4)得到所有属性值的可信度后,对于多值属性,返回所有可信度大于等于预设阈值的属性值作为结果;对于只需要返回一个结果的属性,执行步骤(4)至(6);
(4)将所有属性值的可信度进行归一化;根据公式计算待清洗数据集中所有数据源的可信度;其中,λi表示数据源Di的可信度,t表示数据源Di中的一条数据,d(t)表示数据t的可信度,数据t的可信度等于该条数据所有属性值可信度之和;
(5)根据公式λk更新各属性值的可信度,D’表示对于属性Aj提供属性值的数据源;更新后返回步骤(4);
(6)重复执行步骤(4)至(5),直至所有属性值的可信度收敛;对于只需返回一个结果的属性,找出该属性下可信度最高的属性值为最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810578708.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置