[发明专利]实体关系抽取方法及装置、存储介质、电子设备有效
申请号: | 201910941040.9 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110705301B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 任朝淦;何源;张钧波;郑宇 | 申请(专利权)人: | 北京京东智能城市大数据研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F16/36 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 存储 介质 电子设备 | ||
1.一种实体关系抽取方法,其特征在于,所述方法包括:
获取待抽取实体关系的文本,通过实体和关系联合抽取模型对所述文本进行处理,得到第一实体关系三元组;
确定所述文本中的词语及所述词语对应的标签,根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组;
根据所述词语及所述标签构建实体对,通过关系分类模型对所述文本进行处理,确定针对所述实体对的第三实体关系三元组;
从所述第一实体关系三元组、所述第二实体关系三元组和所述第三实体关系三元组中选取第一实体之间及第二实体之间均相同的目标实体关系三元组,根据所述目标实体关系三元组,确定实体关系抽取结果;
其中,关系规则集是关系规则的集合,在每条关系规则中,包括:关系触发词语、关系类型、第一实体标签和第二实体标签;
所述根据关系规则集对所述文本中的词语及所述标签进行匹配,确定第二实体关系三元组,包括:
针对所述关系规则集中的每条关系规则,判断所述文本中的单个词语是否与该关系规则中的关系触发词语相同;
在所述单个词语与所述关系触发词语相同时,搜索所述标签中是否存在与该关系规则中第一实体标签相同的第一目标标签,以及与该关系规则中第二实体标签相同的第二目标标签;
在第一目标标签和第二目标标签均存在时,根据第一目标标签对应的词语、第二目标标签对应的词语以及该关系规则中的实体关系类型,构建第二实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体关系三元组,确定实体关系抽取结果,包括:
对所述目标实体关系三元组中的实体关系向量进行加权平均,得到目标实体关系向量;
将所述目标实体关系三元组中第一实体和第二实体,以及所述目标实体关系向量中最大值对应的实体关系作为实体关系抽取结果。
3.根据权利要求1所述的方法,其特征在于,所述通过实体和关系联合抽取模型对所述文本进行处理,得到第一实体关系三元组,包括:
对所述文本进行分词处理,得到多个词语;
将所述多个词语转换为语义向量,将所述语义向量输入实体和关系联合抽取模型,得到词语标签;
根据所述词语标签,构建第一实体关系三元组。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述词语及所述标签构建实体对之后,所述方法还包括:
对所述文本中的实体对进行标记,得到标记后的文本;
所述通过关系分类模型对所述文本进行处理,确定第三实体关系三元组,具体包括:
通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组。
5.根据权利要求4所述的方法,其特征在于,所述通过关系分类模型对所述标记后的文本进行处理,确定第三实体关系三元组,包括:
将所述标记后文本转换为对应的文本语义向量;
将所述文本语义向量输入关系分类模型,得到实体关系的概率分布向量;
根据所述实体对以及所述概率分布向量,构建第三实体关系三元组。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所获取的初始文本进行指代消解,得到所述待抽取实体关系的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东智能城市大数据研究院,未经北京京东智能城市大数据研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910941040.9/1.html,转载请声明来源钻瓜专利网。