[发明专利]利用知识图谱来存储文物数据的方法、处理器及存储介质有效
申请号: | 202111008153.7 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113449066B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 刘俊中 | 申请(专利权)人: | 北京泽云瑞弘信息技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/36;G06F40/295 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 邝圆晖;李国 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 知识 图谱 存储 文物 数据 方法 处理器 介质 | ||
1.一种利用知识图谱来存储文物数据的方法,其特征在于,所述方法包括:
获取多个文物数据,根据所述文物数据组成对应的文物数据集;
对所述文物数据集进行检测;
利用Spark的重复数据分析方法对所述文物数据集中的重复数据进行删除;
利用相关性检测对所述文物数据集中的无关数据进行删除;
根据数据处理规则对所述文物数据集中的缺失数据进行删除和/或插补;
利用数据平滑处理方法对所述文物数据集中的噪声数据进行处理;
设置针对结构化数据、半结构化数据和非结构化数据的存储模型,基于动态本体技术为处理完成的所述文物数据提供数据模型;
对处理后的文物数据集进行实体和实体关系的抽取,并对所述处理后的文物数据进行检测,以确定文物数据模型中符合预设模式的文物数据,预设模式是特定模式或特定规律;
对于符合预设模式的文物数据,通过构建的分词词典和使用正则匹配的方法对文物数据中的实体进行识别,并通过正则匹配过滤方法,将文物数据中符合预设规则的实体抽取出来;
对于不符合预设模式的文物数据,结合Seq2Seq机制、Attention机制与迁移学习,将在已有领域数据上训练得到的模型能力迁移到文物领域数据上,以将文物数据中的实体抽取出来,以减轻领域数据缺少标记数据的困难;根据所述实体和所述实体关系构建所述文物数据对应的文物知识图谱;
确定所述文物知识图谱中所述文物数据的数据来源;
根据所述数据来源确定所述文物知识图谱的图谱数据;
根据所述图谱数据对所述文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者;
对所述实体的属性和关系进行增加、删除、更改操作中至少一者;
利用TransE方法确定所述文物知识图谱中每个实体对,所述实体对包括主体和客体,以及所述主体与客体之间的关系;
确定每个实体对的置信度;
按照置信度从大至小的顺序对实体对进行排序;
选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例;
对所述实体关系实例进行分析与知识推理,确定存在隐藏关系的实体对。
2.根据权利要求1所述的方法,其特征在于,所述对处理后的文物数据集进行实体和实体关系的抽取包括:
将清洗和预处理完成的文物数据集确定为文物数据模型;
识别所述文物数据模型中的实体和实体关系;
对符合预设规则的实体进行抽取。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述文物数据模型中的文物数据进行检测,确定符合预设模式的文物数据;
通过建立分词词典和使用正则匹配法识别所述预设模式的文物数据中的实体;
通过所述正则匹配法对所述实体进行过滤,以抽取符合所述预设规则的实体。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述文物知识图谱生成所述文物知识图谱的可视化关联图。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取关键词,在所述文物知识图谱中查找与所述关键词对应的目标实体;
通过关联节点显示所述可视化关联图中所述目标实体与其他相关实体的关联关系;
在所述文物知识图谱中通过所述关联节点查找与所述关联节点对应的实体。
6.一种处理器,其特征在于,被配置成执行根据权利要求1至5中任意一项所述的利用知识图谱来存储文物数据的方法。
7.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器执行根据权利要求1至5中任意一项所述的利用知识图谱来存储文物数据的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泽云瑞弘信息技术有限公司,未经北京泽云瑞弘信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008153.7/1.html,转载请声明来源钻瓜专利网。