[发明专利]家谱数据的处理方法及装置、处理器有效
| 申请号: | 201910640336.7 | 申请日: | 2019-07-16 |
| 公开(公告)号: | CN110390024B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 吴信东;李娇;周鹏 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
| 地址: | 230009 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 家谱 数据 处理 方法 装置 处理器 | ||
1.一种家谱数据的处理方法,其特征在于,包括:
读取家谱集合中的家谱数据,其中,所述家谱集合至少包括:目标家谱和非目标家谱,所述家谱数据中至少包括:人物信息和属性信息,所述属性信息至少包括:属性值;
确定所述目标家谱中人物一的信息和所述非目标家谱中人物二的信息;
判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则;
若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的规则,则计算所述人物一和所述人物二之间的人物相似度;
若所述人物相似度大于预设相似度,则确定所述人物一与所述人物二为同一人;
在所述人物一与所述人物二为同一人时,将所述人物一与所述人物二的属性值进行融合处理,得到目标家谱;
计算所述人物一和所述人物二之间的人物相似度的步骤,包括:在所述人物一和所述人物二构成候选实体对时,使用预设距离编辑法计算所述人物一的信息和所述人物二的信息的字符串相似度,其中,所述字符串相似度至少包括:姓名相似度;使用预设词向量模型将所述人物一和所述人物二的属性信息构建为特征向量,并计算两个向量之间的余弦相似度,将所述余弦相似度作为所述人物一和所述人物二之间的属性相似度;基于所述姓名相似度的权重一和所述属性相似度的权重二,计算所述人物一和所述人物二之间的语义相似度;计算所述人物一与所述人物二之间的关系相似度;基于所述语义相似度的权重三和所述关系相似度的权重四,计算所述人物一和所述人物二之间的人物相似度;
在读取家谱集合中的家谱数据的步骤之前,所述处理方法还包括:确定所述候选实体规则库中的第一规则,其中,所述第一规则是确定两个人物的姓和名是否相同;确定所述候选实体规则库中的第二规则,其中,所述第二规则是确定两个人物的姓相同,且名部分相同;确定所述候选实体规则库中的第三规则,其中,所述第三规则是确定两个人物的姓相同,且一个人物的名或号与另一个人物相同;确定所述候选实体规则库中的第四规则,其中,所述第四规则是确定两个人物的姓不相同,且一个人物的名相同;以所述第一规则、所述第二规则、所述第三规则和所述第四规则,构建所述候选实体规则库;在构建所述候选实体规则库之后,所述处理方法还包括:初始化属性库,其中,所述属性库中至少包含姓名信息和性别信息;构建属性拆分规则库以及等价属性库;基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库,构建目标家谱数据库;
判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则的步骤,包括:判断所述人物一的信息和所述人物二的信息是否满足所述候选实体规则库中的任一规则,其中,所述规则包括:所述第一规则、所述第二规则、所述第三规则、所述第四规则;若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的任一规则,则确定所述人物二是所述人物一的候选实体,所述人物一和所述人物二构成候选实体对;若所述人物一的信息和所述人物二的信息不满足所述候选实体规则库中的任一规则,则确定所述人物二不是所述人物一的候选实体。
2.根据权利要求1所述的处理方法,其特征在于,计算所述人物一与所述人物二之间的关系相似度的步骤,包括:
通过下述公式计算所述关系相似度:
其中,Rel(eij,exy)表示关系相似度,R(eij)代表人物一的亲属关系,|R(eij)∩R(exy)|表示所述人物一和所述人物二相同的人物关系数量,|R(eij)∪R(exy)表示所述人物一和所述人物二所拥有的人物关系数量总和。
3.根据权利要求1所述的处理方法,其特征在于,在所述人物一与所述人物二为同一人时,将所述人物一与所述人物二的属性值进行融合处理,得到目标家谱的步骤,包括:
判断所述属性信息中所述人物一与所述人物二的属性值是否存在于属性库中;
若所述属性值不存在于所述属性库中,则将所述属性值添加至所述属性库中,以更新所述属性库;
基于更新后的属性库,得到凝练家谱人物的所述目标家谱,其中,所述目标家谱中的数据格式为对齐后实体数据格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910640336.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





