[发明专利]利用知识图谱来存储文物数据的方法、处理器及存储介质有效
申请号: | 202111008153.7 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113449066B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 刘俊中 | 申请(专利权)人: | 北京泽云瑞弘信息技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/36;G06F40/295 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 邝圆晖;李国 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 知识 图谱 存储 文物 数据 方法 处理器 介质 | ||
本申请涉及数字化领域,具体涉及一种利用知识图谱来存储文物数据的方法、处理器及存储介质。方法包括获取多个文物数据,根据文物数据组成对应的文物数据集;对文物数据集进行清洗和预处理;对处理后的文物数据集进行实体和实体关系的抽取;根据实体和实体关系构建文物数据对应的文物知识图谱。该技术方案可以通过对获取的海量多源异构的文物数据进行处理,并通过对处理后的数据进行操作以构建与文物数据对应的文物知识图谱,使得可以基于文物知识图谱对文物数据进行操作和使用,在对文物知识进行检索时,基于文物知识图谱可以得到更高的准确率并且使得对目标知识的查询以及相关知识的查询更加便捷迅速。
技术领域
本申请涉及数字化领域,具体涉及一种利用知识图谱来存储文物数据的方法、处理器及存储介质。
背景技术
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
目前的文物数字化工作已经取得了一定的进展,但主要局限于文物基本信息存储、数量统计及传统的关键词检索方式,而且传统检索方式的结果只是多条信息链接的罗列, 尚未构建文物的全景知识图谱。
在传统方法中,难以做到将海量、多源、异构的文物领域数据,通过自然语言处理、知识图谱等技术进行解析和组织,构建文物领域的知识图谱。
发明内容
本申请的目的是为了克服现有技术存在的尚未构建文物的全景知识图谱问题,提供一种利用知识图谱来存储文物数据的方法、处理器及存储介质。该技术方案可以通过对获取的海量多源异构的文物数据进行处理,并通过对处理后的数据进行操作以构建与文物数据对应的文物知识图谱。
为了实现上述目的,本申请一方面提供一种利用知识图谱来存储文物数据的方法,包括:
获取多个文物数据,根据文物数据组成对应的文物数据集;
对文物数据集进行清洗和预处理;
对处理后的文物数据集进行实体和实体关系的抽取;
根据实体和实体关系构建文物数据对应的文物知识图谱。
在本申请实施例中,对文物数据集进行清洗和预处理包括:对文物数据集进行检测;利用Spark的重复数据分析方法对文物数据集中的重复数据进行删除;利用相关性检测对文物数据集中的无关数据进行删除;根据数据处理规则对文物数据集中的缺失数据进行删除和/或插补;利用数据平滑处理方法对文物数据集中的噪声数据进行处理。
在本申请实施例中,对处理后的文物数据集进行实体和实体关系的抽取包括:将清洗和预处理完成的文物数据集确定为文物数据模型;识别文物数据模型中的实体和实体关系;对符合预设规则的实体进行抽取。
在本申请实施例中,方法还包括:对文物数据模型中的文物数据进行检测,确定符合预设模式的文物数据;通过建立分词词典和使用正则匹配法识别预设模式的文物数据中的实体;通过正则匹配法对实体进行过滤,以抽取符合预设规则的实体。
在本申请实施例中,方法还包括:确定文物知识图谱中文物数据的数据来源;根据数据来源确定文物知识图谱的图谱数据;根据图谱数据对文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者;对实体的属性和关系进行增加、删除、更改操作中至少一者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泽云瑞弘信息技术有限公司,未经北京泽云瑞弘信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008153.7/2.html,转载请声明来源钻瓜专利网。