[发明专利]一种基于唯一性约束的Deep Web实体识别方法有效
申请号: | 201210330860.2 | 申请日: | 2012-09-10 |
公开(公告)号: | CN103257983A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 赵朋朋;辛洁;陆姗姗;鲜学丰;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 曹毅 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 唯一 约束 deep web 实体 识别 方法 | ||
技术领域
本发明涉及一种信息集成技术的方法,尤其涉及一种关于唯一性约束的Deep Web实体识别方法。
背景技术
据统计,Web上蕴含的信息量以每年30%的速度增长。很多领域拥有大量数据源并且部分数据重叠。不同数据源提供同一实体的信息,它们可能以不同方式表示同一属性值,有的数据源甚至提供错误的属性值。数据集成中的一个重要环节就是连接并融合指向同一实体的不同记录。
在实践中,很多属性满足唯一性约束,即每个实体(或者大多数实体)在这些属性上具有唯一值,如图书的名称、出版社、ISBN(国际标准书号)等。但是,有时这些数据不是都满足唯一性约束,可能是因为一些数据源提供错误的属性值,也可能因为少数的例外情况(例如有些图书的ISBN有两种:ISBN-10和ISBN-13)。传统的实体识别方法(方法一)一般分为两步:1)记录连接(Record Linkage),即连接那些可能指向同一实体的记录集合。记录连接在过去一段时间内已经被广泛研究,在某种程度上,每个记录集合需要隐式地保持数据的一致性或者显式地强制数据的唯一性。然而当错误值存在时,记录匹配的准确度明显下降;2)数据融合(Data Fusion),即合并每个记录集合,并对每个实体的属性解决可能存在的数据冲突从而确定正确的属性值。数据融合是一个新的领域,它研究如何合并连接的记录和解决冲突。最近,在冲突解决的方法中,已经提出了考虑数据源精准度和数据源之间依赖性的高级技术。
然而,方法一存在三个问题:第一,错误的属性值可能会导致错误的实体识别;第二,方法一由于强制唯一性约束会错过其他正确的属性值;第三,为每个实体的记录集合进行局部的数据融合可能会忽略重要的全局证据。
发明内容
为解决上述问题,本发明提供一种基于唯一性约束的Deep Web实体识别方法,不仅仅是记录连接和数据融合两方面的简单结合,而是将它们无缝地集成在k部图聚类中。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于唯一性约束的Deep Web实体识别方法,包括以下步骤:
步骤1)唯一性约束定义
硬性唯一性约束
设 是领域上的一组实体,为上的一个属性。如果中的每个实体在属性上具有唯一的值,包括空值,那么定义一个在上关于的唯一性约束,表示为;
软性唯一性约束
设是领域上的一组实体,是上的一个属性。一个在上关于的软性唯一性约束定义为,其中是一个实体在上有多个值的上限边界概率,是上的一个值被多个实体共享的上限边界概率;
k部图编码
设是一组实体,是上的k个唯一性属性,是一组为提供数据的数据源,那么的部图编码是一个无向图,使得
· 中的每个结点表示属性的一种值表述方式,由中的某个数据源提供;
· 每条边(,,,)表示存在一条记录使得和都属于这条记录,并将提供这样记录的数据源集合记为;
编码的解决方案
设是实体集合上由数据源集合提供的一个部图编码,那么该编码的解决方案包含两部分:
· 对于每个,存在一个的聚类,使得中的每一类别表示属性的一个唯一值;
· 对于每个类别对和(,,,),当且仅当它们属于中的同一实体时,存在一条边连接和;
步骤2)基于唯一性约束的实体识别
(a)硬性约束下的聚类算法
给定一个聚类,它的索引定义如下:
其中表示和之间的距离,
具体过程如下:
(1)初始化,首先根据相似性为每个属性聚类,然后,在键值属性的类别集合和非键值属性的类别集合之间应用Hungarian算法找到具有最强关联的一对一的匹配关系;
(2)调整,对于每个结点,在不改变其它结点所属类别的前提下,计算将分配到每个类别后的索引,将分配到使得索引最小的那个类别中;
(3)收敛检查,重复执行(2),直到聚类结果不再改变为止;
(b)软性约束下的匹配算法
软性约束下的匹配问题可以归结为下面的介于键值属性和每个软性唯一性属性之间的优化问题:
具体过程如下:
(1)结点选择,考虑属性
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210330860.2/2.html,转载请声明来源钻瓜专利网。