[发明专利]家谱数据的处理方法及装置、处理器有效
| 申请号: | 201910640336.7 | 申请日: | 2019-07-16 |
| 公开(公告)号: | CN110390024B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 吴信东;李娇;周鹏 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
| 地址: | 230009 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 家谱 数据 处理 方法 装置 处理器 | ||
本发明公开了一种家谱数据的处理方法及装置、处理器。其中,该方法包括:读取家谱集合中的家谱数据,其中,家谱集合至少包括:目标家谱和非目标家谱,家谱数据中至少包括:人物信息和属性信息,属性信息至少包括:属性值;确定目标家谱中人物一的信息和非目标家谱中人物二的信息;判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则;若人物一的信息和人物二的信息满足候选实体规则库中的规则,则计算人物一和人物二之间的人物相似度;若人物相似度大于预设相似度,则确定人物一与人物二为同一人;在人物一与所述人物二为同一人时,将人物一与人物二的属性值进行融合处理,得到目标家谱。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种家谱数据的处理方法及装置、处理器。
背景技术
相关技术中,很多同姓家庭来自于同一家族,在长时间的姓氏信息记载过程中,形成了多种多样的家谱,而当前的家谱数据繁杂、没有统一的数据处理方式,同一个人在不同的家谱中可能表达为不同姓氏、年代的信息,让家谱数据处理者无法理清人物之间的关联关系;而且,当前在数据处理方面,无法针对碎片化的家谱数据进行有效的数据融合(即确定人物是否为同一人,并将人物数据进行融合处理)。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种家谱数据的处理方法及装置、处理器,以至少解决相关技术中无法将家谱数据进行融合处理的技术问题。
根据本发明实施例的一个方面,提供了一种家谱数据的处理方法,包括:读取家谱集合中的家谱数据,其中,所述家谱集合至少包括:目标家谱和非目标家谱,所述家谱数据中至少包括:人物信息和属性信息,所述属性信息至少包括:属性值;确定所述目标家谱中人物一的信息和所述非目标家谱中人物二的信息;判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则;若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的规则,则计算所述人物一和所述人物二之间的人物相似度;若所述人物相似度大于预设相似度,则确定所述人物一与所述人物二为同一人;在所述人物一与所述人物二为同一人时,将所述人物一与所述人物二的属性值进行融合处理,得到目标家谱。
可选地,在读取家谱集合中的家谱数据的步骤之前,所述处理方法还包括:确定所述候选实体规则库中的第一规则,其中,所述第一规则是确定两个人物的姓和名是否相同;确定所述候选实体规则库中的第二规则,其中,所述第二规则是确定两个人物的姓相同,且名部分相同;确定所述候选实体规则库中的第三规则,其中,所述第三规则是确定两个人物的姓相同,且一个人物的名或号与另一个人物相同;确定所述候选实体规则库中的第四规则,其中,所述第四规则是确定两个人物的姓不相同,且一个人物的名相同;以所述第一规则、所述第二规则、所述第三规则和所述第四规则,构建所述候选实体规则库;在构建所述候选实体规则库之后,所述处理方法还包括:初始化属性库,其中,所述属性库中至少包含姓名信息和性别信息;构建属性拆分规则库以及等价属性库;基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库,构建目标家谱数据库。
可选地,判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则的步骤,包括:判断所述人物一的信息和所述人物二的信息是否满足所述候选实体规则库中的任一规则,其中,所述规则包括:所述第一规则、所述第二规则、所述第三规则、所述第四规则;若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的任一规则,则确定所述人物二是所述人物一的候选实体,所述人物一和所述人物二构成候选实体对;若所述人物一的信息和所述人物二的信息不满足所述候选实体规则库中的任一规则,则确定所述人物二不是所述人物一的候选实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910640336.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





