[发明专利]时序知识图谱生成方法、装置、设备和介质有效
申请号: | 202010041805.6 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111221983B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 黄昉;李双婕;史亚冰;蒋烨;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时序 知识 图谱 生成 方法 装置 设备 介质 | ||
本申请实施例公开了一种时序知识图谱生成方法、装置、设备和介质,涉及知识图谱技术,其中,该方法包括:获取包括时间信息的语料;对语料进行多元数据抽取,其中,多元数据包括实体对、实体关系、以及实体关系的目标时间区间,目标时间区间用于表示实体关系有效的期限;基于实体对、实体关系、以及实体关系的目标时间区间,生成时序知识图谱。本申请实施例提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行统一的规范化,提高了知识图谱中知识的时间信息的表达精度。
技术领域
本申请实施例涉及计算机技术,具体涉及知识图谱技术,尤其涉及一种时序知识图谱生成方法、装置、设备和介质。
背景技术
知识图谱是从语义角度用结构化信息表示现实世界知识的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。知识是指知识图谱中关于现实世界的客观事实的描述,通常包括实体对(主体S-客体O pair)与他们之间的关系(P),以SPO三元组的形式表示。
然而,目前通用的知识三元组对知识的时间表达精度不高,只能通过离散时间状态进行简单表示。此外,时间作为一种度量方式,本身是可以进行计算操作的,由于知识的时间表达精度不高,导致知识不支持时间信息的计算。
发明内容
本申请实施例公开一种时序知识图谱生成方法、装置、设备和介质,以提出一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行统一的规范化,提高知识图谱中知识的时间信息的表达精度。
第一方面,本申请实施例公开了一种时序知识图谱生成方法,包括:
获取包括时间信息的语料;
对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;
基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。
上述申请中的一个实施例具有如下优点或有益效果:提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算。
可选的,所述实体关系的目标时间区间的抽取过程包括:
通过所述多元数据抽取,得到所述实体关系的多个时间区间;
对所述多个时间区间进行融合处理,得到所述目标时间区间。
上述申请中的一个实施例具有如下优点或有益效果:确保了时序知识图谱中各实体关系的有效时间区间的准确性和完整性。
可选的,对所述多个时间区间进行融合处理,得到所述目标时间区间,包括:
按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选;
按照时间顺序对筛选后的时间区间进行整合,得到所述目标时间区间。
可选的,按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选,包括:
统计所述多个时间区间中每个时间区间对应的数据源在所述语料中的数量;
根据所述数量,确定每个时间区间的置信度;
按照所述置信度,对所述多个时间区间进行筛选。
可选的,所述方法还包括:
确定所述目标时间区间的时间起点和时间终点是否存在空值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041805.6/2.html,转载请声明来源钻瓜专利网。