[发明专利]知识图谱构建方法、装置、计算机设备和存储介质在审
| 申请号: | 201910627988.7 | 申请日: | 2019-07-12 |
| 公开(公告)号: | CN110489561A | 公开(公告)日: | 2019-11-22 |
| 发明(设计)人: | 孙佳兴;李琦;谢云;陈泽晖 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
| 代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 陈小娜<国际申请>=<国际公布>=<进入 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图谱 资源标识 关联关系 知识数据 构建 三元组 计算机设备 存储介质 实体属性 图谱构建 相似度 申请 更新 | ||
本申请涉及一种知识图谱构建方法、装置、计算机设备和存储介质。本申请涉及知识图谱领域,所述方法通过预生成的知识图谱本体来构建知识图谱,由于预生成的知识图谱本体包括资源标识和资源标识之间的关联关系,那么从知识数据中识别出属于资源标识的实体后,可以根据资源标识之间的关联关系准确确定实体之间的关联关系,是构建实体三元组的基础,这样得到的知识图谱依赖于资源标识之间的关联关系生成,能够更为准确地表达知识数据中实体之间的关系,使得构建的知识图谱更准确。当获取到新的用于提取实体三元组的知识数据时,根据知识图谱中已有实体的实体属性与知识数据间的相似度,确定实体是否已存在于知识图谱中,能够更准确地更新知识图谱。
技术领域
本申请涉及计算机技术领域,特别是涉及一种知识图谱构建方法、装置、计算机设备和存储介质。
背景技术
行业知识图谱是面向特定领域的知识图谱。资源行业的资源数据十分丰富,知识众多,知识图谱的本体Schema设计是后续知识推理、挖掘的基础。目前,针对资源行业的知识图谱构建,通常都是直接地将其它行业的知识图谱本体直接移植过来用于建立资源行业知识图谱的建立,但是实际上,由于不同行业涉及的业务不同,知识数据是存在很大差异的,导致这种方式构建得到的知识图谱所表达的知识数据之间的联系不够准确,也会影响基于知识图谱进行知识路径分析的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高知识图谱的准确性的知识图谱构建方法、装置、计算机设备和存储介质。
一种知识图谱构建方法,所述方法包括:
获取源自于各资源数据源的资源数据;
对所述资源数据进行预处理,得到统一格式的知识数据;
获取预生成的知识图谱本体,所述本体包括资源标识以及所述资源标识之间的关联关系;
识别所述知识数据中属于所述资源标识的实体,根据所述资源标识之间的关联关系,从所述知识数据中确定所述实体之间的关联关系,并根据所述实体以及所述实体之间的关联关系,得到包含所述关联关系的实体三元组,根据所述实体三元组构建知识图谱;
当获取到新的用于提取实体三元组的知识数据时,获取所述知识图谱中已有实体所对应的实体属性,根据所述实体属性与所述知识数据的相似度,确定所述实体三元组中的实体是否指向所述已有实体;
若是,则将所述实体三元组链接至所述已有实体;
若否,则为所述实体三元组中的实体分配唯一的实体标识,并将所述实体三元组中实体所对应的实体标识、实体之间的关联关系添加至所述知识图谱对应的知识库中。
在其中一个实施例中,所述知识图谱本体的生成步骤包括:
按照FSDM模型中数据的分类对资源领域数据进行分类,并将属于同一类别的资源数据以资源标识表示;
按照不同类别的资源数据之间的预设关系,建立各所述资源标识之间的关联关系;
获取为各所述资源标识预先配置的资源属性;
将所述资源标识、所述资源标识之间的关联关系以及所述资源属性存储在知识库中,得到知识图谱本体。
在其中一个实施例中,所述对所述资源数据进行预处理,得到统一格式的知识数据,包括:
对来源于不同资源数据、且重复的资源数据进行去重处理;
以预设数据填补缺失的资源数据;以及
对相同类型的资源数据进行转换,得到相同数据格式的知识数据。在其中一个实施例中,
所述识别所述知识数据中属于所述资源标识的实体,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910627988.7/2.html,转载请声明来源钻瓜专利网。





