[发明专利]一种基于谓词的多源数据集清洗方法有效
申请号: | 201810578708.3 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108776697B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 谢子哲;李论;刘奇志 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 谓词 数据 清洗 方法 | ||
本发明提出一种基于谓词的多源数据集清洗方法所提供的方法能够有效从同构多源数据集中识别出最可靠的数据项,涉及数据清洗、数据融合等领域。所述方法包括:1)用自动化方法挖掘谓词,并对挖掘出来的谓词进行过滤;2)根据谓词推导数据集中各实体的属性值的可信度;3)建立属性值可信度跟数据源可信度之间的关系,计算数据源可信度;4)结合数据源可信度和属性值可信度找出可信度最高的数据项。对于多个数据源,本发明可以对来自不同数据源但内容相同的信息进行分析,过滤掉冗余、错误和过时的数据,留下可信度最高的数据,为后续数据分析夯实基础,对后续数据处理的效率和准确率具有重要意义。
技术领域
本发明涉及数据清洗、数据融合等领域,尤其是一种基于谓词的多源数据集清洗方法。
背景技术
在信息时代,可以从大量的数据源中找到对同一个事件或者物体的描述数据,同时由于时间错误、格式错误、精确度、完整性、语义上的歧义等原因,来自不同数据源对同一实体的描述存在不一致性。在从不同数据源搜集数据后,解决属于同一实体的描述数据之间的不一致性,对后续的数据分析至关重要。简单的投票策略——选择较多数据源支持的描述——并不适用于当下Web环境,而需要考虑数据源可信度、数据本身的可信度以及一些先验知识来设计更复杂的清洗策略。现有的清洗策略主要包括以下几种:
中国专利201410387772号申请文件公开了“一种基于交通多源数据融合的公交路况处理系统及方法”,它融合来自不同数据源的描述公交路况的交通数据得到可供展示的路况信息。它的输入为特定交通数据,没有根据谓词进行可信度判断,也没有根据数据和数据源之间的关系计算数据源的可信度。
中国专利201110369877号申请文件公开了“一种多源数据集成平台及其构建方法”,它是对不同的数据进行管理,这些数据之间不存在一致性问题。
美国专利US 8190546号申请文件公开了“Dependency between sources intruth discovery”,它通过数据源之间的拷贝关系建立概率图模型来评估数据源和数据的可信度,并不涉及用谓词来评估数据的可信度。
发明内容
发明目的:为了克服目前在多源数据融合中,描述相同实体的数据不一致的问题,也就是多源数据一致性问题中难以确定数据可信度初始值,以及如何结合数据源可信度和数据可信度的问题,本发明提供一种基于数据源可信度和数据可信度的多源数据集清洗方法,通过设定谓词计算数据可信度,再通过数据可信度计算数据源可信度,最终找出可信度最高的数据,达到数据清洗的目的。
技术方案:为实现上述技术效果,本发明提出一种基于谓词的多源数据集清洗方法,包括步骤:
(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,
优先级谓词为Prior(Ai,Aj),表示属性Ai的优先级高于属性Aj的优先级;
状态谓词为:其中,ti表示语句i,表示语句i中属性Ak的属性值,表示预定义的与之间满足的条件,φ(ti,tj)表示预定义的ti与tj之间满足的条件;Stat(Ak)表示当ti和tj满足条件P和φ时,ti的质量高于tj;
交互谓词为:Interδ(A1,…,Al),表示当数据满足条件δ时,该条数据的属性A1,…,Al的属性值质量差;
(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘,得到数据集中的优先级谓词、状态谓词和交互谓词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810578708.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置