[发明专利]基于权重的链接多属性的实体识别方法无效
申请号: | 200810244679.3 | 申请日: | 2008-12-11 |
公开(公告)号: | CN101482876A | 公开(公告)日: | 2009-07-15 |
发明(设计)人: | 谢俊元;刘红星;雷钰丽;王崇骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京天翼专利代理有限责任公司 | 代理人: | 汤志武;王鹏翔 |
地址: | 210093*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 权重 链接 属性 实体 识别 方法 | ||
技术领域
本发明涉及实体识别方法,尤其是基于权重的链接多属性基于图的实体识别方法。
背景技术
实体识别的目的是在混淆的实体中找出其真正对应的实际实体。随着科学技术的进步,积累了越来越多的数据,这些数据包括了平面型的结构化数据和可以用图代表的链接型数据,各种大量的数据为各种预测提供了详尽的知识信息,比如个人的喜好或者社团结构的预测等。然而在这些知识信息被利用之前,必须要考虑一个最基本的属性:正确性,具体的说,必须能够确定两个不同的信息是不是代表同一个实体或者说这两个信息是不是冗余的。区分信息的正确性是使用和利用信息的前提,利用不正确的知识将对下面的分析和预测产生恶劣的影响。
实体识别领域传统的方法根据描述实体的字符串的相似度来表征实体间的相似程度,然后利用相似度度量进行聚类。目前,主要研究兴趣集中在使用链接或者关系结构来提高实体识别的精度,主要的思想是不仅考虑实体的属性之间的相似度如字符串的相似等,还考虑到与其相连的其他实体对其的影响。
随着实体识体识别领域的扩大,出现了一些新的应用场景,在这些应用场景中,如果采用原先的相似度度量方法进行计算,可能会丢失一些有用信息。本发明的思路就是在原有相似度度量的基础上提出新的相似度度量方法,把应用场景中一些丢失的有用信息加入到度量标准中来形成新的相似度度量准则。本发明针对这种特殊的应用场景,把基于无权重无向图的实体识别问题扩展到有权重图实体识别问题。本发明分别提出两个不同的相似度度量标准来处理有权重图的实体识别问题,一个是扩展Jaccard相似度度量标准使其能够在适应有权重图的实体识别,另外一种是借用马尔可夫随机游走的思想通过概率的形式来表示实体之间的相似性,并在这两种相似性度量基础上把表征图的权重形式从单一属性扩展到多属性,提出了基于链接多属性相似性的实体识别算法。
发明内容
本发明目的是:所要解决的技术问题是提供一种基于权重的链接多属性的实体识别方法,使基于图的实体识别从无向无权图扩展到包含权重向量的无向图中,以适用于包含众多权重模式信息的通信和相关领域;
本发明技术方案是:为解决上述问题,本发明的基于权重的链接多属性的实体识别方法包括如下步骤:
3)数据预处理阶段:
c)收集节点间关系数据;
d)确定节点之间权重的表现方式,包括权重属性定义以及权重属性计算方法;
e)生成给定节点的四层联系图;
f)结束;
4)实体识别阶段:
b)通过把步骤1-c)生成的联系图中的链接多属性映射为单属性得到中间关联图;
c)计算给定节点与中间关联图中的其他节点的相似度;
d)进行相似度排序,得到相似度前几位的节点编号;
e)结束;
其中:
步骤1-a)中获得个体之间的通信数据,这些通信数据的获得从交换机的原始话单或者是运营商那里得到的计费数据;
步骤1-b)中根据现实需要来具体决定相应的权重的表现方式和统计标准;
步骤1-c)中具体过程如下:
11)初始化队列,把给定的节点首先入队,并标记节点的层次为1层,标记为已访问过的节点。
12)设定程序状态信息,表示当前处理的节点的层次为第1层。
13)循环从队列中出队一个元素,同时得到此元素所在的层次,然后执行以下14到18步。
14)从关系数据中得到出队节点的所有联系节点。
15)针对没有被访问过的联系节点进行16-18步操作。
16)从关系数据中统计出权重的各个属性信息。
17)把节点以及它们的权重信息加入到关联图中。
18)把处理过的联系节点放到队列中供下次遍历。
步骤2-a)的具体过程如下:
21)对给定权重向量与基准向量的各个属性的值进行比对,循环进行22,23两步操作
22)分别得到两个向量当前属性值的最小值和最大值。
23)得到向量最小值的和以及最大值的和。
24)计算两个向量之间的相似程度。
25)把计算出来的相似度作为新的权重。
步骤2-b的具体过程如下:
31)对矩阵的每一行分别进行处理,循环进行32,33两步操作。
32)计算矩阵当前行的所有元素的和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810244679.3/2.html,转载请声明来源钻瓜专利网。