[发明专利]时序知识图谱生成方法、装置、设备和介质有效
申请号: | 202010041805.6 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111221983B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 黄昉;李双婕;史亚冰;蒋烨;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时序 知识 图谱 生成 方法 装置 设备 介质 | ||
1.一种时序知识图谱生成方法,其特征在于,包括:
获取包括时间信息的语料;
对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;
基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱;
其中,时序知识图谱中包括实体关系的目标时间区间。
2.根据权利要求1所述的方法,其特征在于,所述实体关系的目标时间区间的抽取过程包括:
通过所述多元数据抽取,得到所述实体关系的多个时间区间;
对所述多个时间区间进行融合处理,得到所述目标时间区间。
3.根据权利要求2所述的方法,其特征在于,对所述多个时间区间进行融合处理,得到所述目标时间区间,包括:
按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选;
按照时间顺序对筛选后的时间区间进行整合,得到所述目标时间区间。
4.根据权利要求3所述的方法,其特征在于,按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选,包括:
统计所述多个时间区间中每个时间区间对应的数据源在所述语料中的数量;
根据所述数量,确定每个时间区间的置信度;
按照所述置信度,对所述多个时间区间进行筛选。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标时间区间的时间起点和时间终点是否存在空值;
如果存在空值,则利用与当前语料不同来源的候选语料,确定所述空值的有效性。
6.根据权利要求1所述的方法,其特征在于,对所述语料进行多元数据抽取,包括:
利用预先训练的特征提取模型,对所述语料中的每个语句进行特征提取;
基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到所述多元数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
利用训练语料集和所述训练语料集中每个语句的多元数据标记结果,训练得到多元数据抽取模型,使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。
8.根据权利要求1所述的方法,其特征在于,对所述语料进行多元数据抽取,包括:
分析所述语料中文本的主题或文本结构;
如果所述文本的主题属于预设主题,或者所述文本结构属于预设文本结构,则采用不同的数据抽取方式抽取所述多元数据。
9.根据权利要求8所述的方法,其特征在于,所述采用不同的数据抽取方式抽取所述多元数据,包括:
按照预设关系抽取方式从所述文本的语句中抽取所述实体关系,其中,所述预设关系抽取方式是指基于知识抽取需求而预先定义的确定实体关系的方式;
通过对所述文本中的语句进行特征提取与词语分类标注,得到所述实体对、以及所述实体关系的目标时间区间。
10.根据权利要求1所述的方法,其特征在于,在对所述语料进行多元数据抽取之后,所述方法还包括:
按照知识抽取需求,对所述抽取的实体对中的任一论元和所述抽取的实体关系进行消歧;
对消歧后的实体对和消歧后的实体关系进行融合。
11.根据权利要求1所述的方法,其特征在于,所述获取包括时间信息的语料,包括:
通过对所述时间信息的识别,得到包括所述时间信息的语料;
其中,所述时间信息包括语料正文记载的时间、语料数据的推送时间、语料数据的更新时间、以及基于语料来源间接获取的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041805.6/1.html,转载请声明来源钻瓜专利网。