[发明专利]基于权重的链接多属性的实体识别方法无效
申请号: | 200810244679.3 | 申请日: | 2008-12-11 |
公开(公告)号: | CN101482876A | 公开(公告)日: | 2009-07-15 |
发明(设计)人: | 谢俊元;刘红星;雷钰丽;王崇骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京天翼专利代理有限责任公司 | 代理人: | 汤志武;王鹏翔 |
地址: | 210093*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 权重 链接 属性 实体 识别 方法 | ||
1.基于权重的链接多属性的实体识别方法,其特征是包括如下步骤:
1)数据预处理阶段:
a)收集节点间关系数据;
b)确定节点之间权重的表现方式,包括权重属性定义以及权重属性计算方法;
c)生成给定节点的四层联系图;
d)结束;具体步骤如下:
步骤1:获得人们之间的通信数据,这些通信数据是从交换机得到的原始话单或者是运 营商那里得到的话费数据,其中包含的最主要的就是通话双方之间的联系信息,包括目标号 码和联系号码,以及通话类型,包括主叫、被叫;
步骤2:确定权重表现方式,因为通信数据里包含了通信双方的通话信息,权重可以有不 同的度量表现方式:直接选中双方的通话次数或者双方的通话时长作为权重的统计量;为了 更好的利用通话模式方面的信息,采取包含多属性的统计信息来作为权重,把属性定义为一 天的24小时各个时段内平均通话次数作为统计量,那么采用的链接属性就包含了24个属性, 这里不管采用单属性的统计量作为权重或者多属性的统计量作为权重都统一采用此确定权 重表现方式来进行实体识别;
步骤3:节点之间联系图的产生,根据现实采集到的数据得到给定节点的四层联系图, 在实体识别阶段识别;
步骤3中的详细过程由步骤10-步骤21描述,从关系数据中生成节点之间联系图:
步骤10:为起始步骤;
步骤11:初始化队列,把给定的节点首先入队,并标记此节点的层次为1层,标记为已访问 过的节点;
步骤12:设定程序状态信息,表示当前处理的节点的层次为第1层;
步骤13:判断队列是否为空,并且保证当前处理的节点层次是不大于4的,如果有一个不满 足就表示联系图生成结束;
步骤14:从队列中出队一个节点,并得到此节点所在的层次;
步骤15:从关系数据中得到当前节点的所有联系节点;
步骤16-21是循环对当前节点的各个联系节点进行处理;
步骤16:判断是否已经处理最后一个节点,如果已经处理完其所有的联系节点,则转到步骤 13继续执行;
步骤17:取出一个联系节点;
步骤18:判断此节点是否已经访问过,如果已访问过则转到步骤16继续取出下一个联系节点, 如果没有访问过,步骤19-21是对没有访问过的节点进行处理;
步骤19:从关系数据中统计出步骤2定义的权重的各个属性信息;
步骤20:把节点以及它们的权重信息加入到联系图中;
步骤21:把处理过的联系节点放到队列中供下次遍历;
2)实体识别阶段:
a)通过把数据预处理阶段生成的联系图中的链接多属性映射为单属性得到中间关联 图;具体过程如下:
A21)对给定权重向量与基准向量的各个属性的值进行比对,循环进行A22),A23)两步 操作;
A22)分别得到两个向量当前属性值的最小值和最大值;
A23)得到向量最小值的和以及最大值的和;
A24)计算两个向量之间的相似程度;
A25)把计算出来的相似度作为新的权重;
b)计算给定节点与中间关联图中的其他节点的相似度;具体过程如下:
B31)对矩阵的每一行分别进行处理,循环进行32),33)两步操作;
B32)计算矩阵当前行的所有元素的和;
B33)分别对行的各个元素的值进行更新,更新的方法是当前的值除以所在行的所有值 的和第B32步计算得到的值;
B34)进行矩阵相乘运算得到相似度矩阵;
B35)更新得到的相似度矩阵,把有边相连的两个节点的相似度置为0;
c)进行相似度排序,得到相似度前几位的节点编号;
d)结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810244679.3/1.html,转载请声明来源钻瓜专利网。