[发明专利]实体关系抽取方法及装置、存储介质、电子设备有效
申请号: | 201910941040.9 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110705301B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 任朝淦;何源;张钧波;郑宇 | 申请(专利权)人: | 北京京东智能城市大数据研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F16/36 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 存储 介质 电子设备 | ||
本公开提供一种实体关系抽取方法及装置、电子设备、存储介质;涉及自然语言处理技术领域。所述方法包括:获取待抽取实体关系的文本,通过实体和关系联合抽取模型对该文本进行处理,得到第一实体关系三元组;确定文本中的词语及词语对应的标签,根据关系规则集对词语及标签进行匹配,确定第二实体关系三元组;根据所述词语及所述标签构建实体对,通过关系分类模型对该文本进行处理,确定针对所述实体对的第三实体关系三元组;根据第一实体关系三元组、第二实体关系三元组和第三实体关系三元组,确定实体关系抽取结果。本公开可以提高实体关系抽取的准确性。
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种实体关系抽取方法、实体关系抽取装置、电子设备以及计算机可读存储介质。
背景技术
近年来,随着信息技术的不断发展,产生了大量的非结构化文本数据,例如新闻稿等,非结构化的数据不利于快速分析和处理。信息抽取研究了如何从这些文本提取出结构化的数据,信息抽取包括实体抽取和实体关系抽取,其中,实体指具有客观意义或指代性较强的词语,包括人名、地名、组织机构名、时间日期、专有名词等。相关技术中,在抽取实体关系时,准确性较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种实体关系抽取方法、实体关系抽取装置、电子设备以及计算机可读存储介质,进而在一定程度上克服由于相关技术的限制和缺陷而导致的在抽取实体关系时准确性较低的问题。
根据本公开的第一方面,提供一种实体关系抽取方法,包括:
获取待抽取实体关系的文本,通过实体和关系联合抽取模型对所述文本进行处理,得到第一实体关系三元组;
确定所述文本中的词语及所述词语对应的标签,根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组;
根据所述词语及所述标签构建实体对,通过关系分类模型对所述文本进行处理,确定针对所述实体对的第三实体关系三元组;
根据所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组,确定实体关系抽取结果。
在本公开的一种示例性实施例中,所述根据所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组,确定实体关系抽取结果,包括:
从所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组中选取第一实体之间及第二实体之间均相同的目标实体关系三元组;
根据所述目标实体关系三元组,确定实体关系抽取结果。
在本公开的一种示例性实施例中,所述根据所述目标实体关系三元组,确定实体关系抽取结果,包括:
对所述目标实体关系三元组中的实体关系向量进行加权平均,得到目标实体关系向量;
将所述目标实体关系三元组中第一实体和第二实体,以及所述目标实体关系向量中最大值对应的实体关系作为实体关系抽取结果。
在本公开的一种示例性实施例中,所述根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组,包括:
针对所述关系规则集中的每条关系规则,判断所述文本中的单个词语是否与该关系规则中的关系触发词语相同;
在所述单个词语与所述关系触发词语相同时,搜索所述标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东智能城市大数据研究院,未经北京京东智能城市大数据研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910941040.9/2.html,转载请声明来源钻瓜专利网。