[发明专利]实体关系抽取方法、装置、电子设备及存储介质有效
申请号: | 202011275193.3 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112232074B | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 任梦星;刘炎;覃建策;陈邦忠 | 申请(专利权)人: | 完美世界控股集团有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/211;G06F16/33 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军;田俊峰 |
地址: | 100089 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 电子设备 存储 介质 | ||
1.一种实体关系抽取方法,其特征在于,所述方法包括:
对待抽取的目标文本进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组;基于预设的实体校正规则对所述实体关系三元组中的实体进行校正;
其中,所述基于依存句法树确定所述目标文本所符合的句法模式,包括:按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式,其中所述预设的句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示;将所述目标句法模式确定为所述目标文本所符合的句法模式;
所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:以所述实体关系三元组中的首个实体为关键字查找预设的代词词表;如果在所述代词词表中查找到所述关键字,则将所述实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述基于句法模式从所述目标文本抽取实体关系三元组,包括:
基于所述句法模式中的各依存关系标签从所述目标文本中抽取目标词元和核心关系词;
将抽取出的所述目标词元和核心关系词组成实体关系三元组。
3.根据权利要求1~2任一所述的方法,其特征在于,在所述基于句法模式从所述目标文本抽取实体关系三元组之后,还包括:
基于所述依存句法树确定是否对所述实体关系三元组中的关系词进行修正。
4.根据权利要求3所述的方法,其特征在于,所述基于依存句法树确定是否对所述实体关系三元组中的关系词进行修正,包括:
检查所述依存句法树中是否存在与所述实体关系三元组中的关系词相连且满足设定条件的目标词语;所述设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中;
如果是,则确定对所述实体关系三元组中的关系词进行修正。
5.根据权利要求4所述的方法,其特征在于,所述对所述实体关系三元组中的关系词进行修正,包括:
将所述实体关系三元组中的关系词更新为所述目标词语与所述关系词的组合;或者,
将所述实体关系三元组中的关系词更新为所述目标词语、所述关系词,以及所述目标文本中位于所述目标词语和所述关系词之间的名词性短语的组合。
6.根据权利要求4所述的方法,其特征在于,所述指定依存标签为:ADV或CMP,所述关键标志词词表中包含至少一个否定词;或者,
所述指定依存标签为ADV,所述关键标志词词表中包含至少一个被动标志词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于完美世界控股集团有限公司,未经完美世界控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011275193.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗牙齿敏感生物溶菌酶牙膏组合物
- 下一篇:一种碱水粑制作生产线