[发明专利]一种基于图神经网络的真值发现方法在审
申请号: | 202110666206.8 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113591903A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 董永权;陈华凤 | 申请(专利权)人: | 江苏师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京淮海知识产权代理事务所(普通合伙) 32205 | 代理人: | 周淑淑 |
地址: | 221116 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 真值 发现 方法 | ||
一种基于图神经网络的真值发现方法,包括源可靠性建模、观测值可信度建模和真值推断三步骤。首先构建一个包含源‑观测值交互和源‑源交互的图神经网络模型来学习源的可靠性嵌入;其次用一个基于平均值的聚合器聚合相关源的嵌入来获取观测值的可信度嵌入;最后使用这些观测值的嵌入和地面真值来学习分类器,估计出具有可能为真概率最高的观测值作为真值。本发明能够同时聚合源‑观测值交互和源‑源交互中的潜在因子,以学习源和观测值的嵌入,同时在模型中引入注意力机制,以学习语义上更丰富的嵌入,为真值发现提供更充分的证据,不仅可以处理分类型数据的冲突问题,还可以有效解决连续型数据的真值发现问题,提高真值发现方法的准确率。
技术领域
本发明涉及一种真值发现方法,具体是一种基于图神经网络的真值发现方法,属于真值发现技术领域。
背景技术
近年来,图嵌入学习已经成为处理现实世界问题的强大技术,它可以自然地整合节点信息,获得每个节点的有意义的向量表示。图嵌入或网络嵌入是数据挖掘和机器学习界日益关注的另一个课题,主要通过图神经网络(Graph Neural Network,GNN)来实现。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,以便使用简单的机器学习算法(例如,支持向量机分类)进行处理。图嵌入学习的这一优势为推进真值发现带来了巨大潜力,因为真值发现中的数据可以自然地表示为source-claim图和source-source图。
真值发现(Truth Discovery,TD)作为解决数据融合过程中的信息冲突问题的一种手段,在传统数据库领域已经得到了广泛的研究。真值发现主要指的是给定多个数据源提供的对于多个实体的大量具有冲突的描述信息,如何从这些冲突信息中为每一个实体找出准确的描述。国内外大多数真值发现方法主要根据源的可靠性来估计真值,目前的真值发现方法大致可以分为以下四类:迭代方法、概率图模型方法、基于优化的方法、基于深度学习的方法。
迭代方法:在真值发现的一般原理中,真值计算和源可靠性估计相互依赖。因此,有一些真值发现方法被设计为迭代过程,其中真值计算步骤和源权重估计步骤被迭代地进行直到收敛,其基本思想是每一个数据源都有一个可信度,直观上来说,在给出的观测值中用户更愿意相信那些可信度比较高的数据源所提供的观测值,所以数据源的可信度对观测值正确性的影响是存在的,而数据源的可信度又是根据它所提供的观测值的正确性决定的,因此数据源的可信度与观测值的正确性是相互影响的,一般利用迭代算法的思想计算数据源的可信度和观测值的正确性。伊利诺伊香槟分校Xiaoxin Yin等人利用数据源的可信度和观测值的正确性之间的相互影响,以及观测值之间的相互影响,提出TruthFinder迭代算法(Yin,X.,J.Han and P.S.Yu,Truth Discovery with Multiple ConflictingInformation Providers on the Web.IEEE Transactions on Knowledge and DataEngineering,2008.20(6):p.796-808.);伊利诺伊香槟分校Jeff Pasternack等人在TruthFinder工作基础上引入用户的先验知识,将通用常识推理和用户已有的知识用约束不等式表示,应用整数线性规划方法在真值发现过程中施加约束,同时提出了三个新的真值计算方法:AverageLog,Investment和PooledInvestment(Jeff,P.and D.Roth,KnowingWhat to Believe(when you already know something),in Proceedings of the 23rdInternational Conference on Computational Linguistics.2010:China,Beijing.p.877–885.)。随后,该研究组又设计一个框架,在推断过程中引入背景知识,比如,从数据源抽取出的记录的准确度等。法国国家信息与自动化研究院Alban Galland等人将观测值的真值发现的难度引入到模型中,提出了3-Estimates算法,比如,正确断言一个难判断的观测值所传递的可信度要大于正确断言一个容易判断的观测值,也就是说不能仅仅因为一个数据源提供一些常识知识就单纯信任它。纽约州立大学水牛分校Yaliang Li等人在多个异构类型的数据源之间提出优化框架,迭代优化观测真值和数据源可信度的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110666206.8/2.html,转载请声明来源钻瓜专利网。