[发明专利]一种融合触发词识别特征的实体关系抽取方法有效
申请号: | 202010212651.2 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111428505B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 辛欣;王艳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F16/35;G06K9/62 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 触发 识别 特征 实体 关系 抽取 方法 | ||
本发明涉及一种融合触发词识别特征的实体关系抽取方法,属于自然语言处理中的信息抽取技术领域。所述方法先对数据集中的句子标记触发词;再利用句子中触发词、两个实体和根据两个实体相对位置计算的句子类型计算标签向量,然后计算标签向量与模型中注意力机制捕捉的句子特征表示的相对熵;再设计一个实体关系抽取的目标函数;将相对熵与实体关系抽取的目标函数进行优化用于训练实体关系抽取的模型。不仅解决了现有实体关系抽取方法对句子中的所有词一视同仁的缺点,还能帮助实体关系抽取模型提取对实体关系分类更有用的特征;所述实体关系抽取方法在标准的中文关系抽取数据集ACE2005上比现有最好实体关系抽取方法的F1得分高出2.5%。
技术领域
本发明涉及一种融合触发词识别特征的实体关系抽取方法,属于自然语言处理中的信息抽取技术领域。
背景技术
实体关系抽取任务是给定标注了两个实体的句子,返回两个实体之间的语义关系。例如“姚明在父亲姚志源的影响下,他也十分热爱篮球运动”,句子中两个实体分别是“姚明”和“姚志源”,两个实体之间的关系是“父子”。
实体关系抽取是信息检索和问答系统等信息系统的重要支撑技术。实体关系抽取使信息系统的输出结果由粗粒度的文档级转变为细粒度的实体级。比如在传统的信息检索技术中,输入“姚明的父亲是谁?”,会输出结果是带有“姚明”和“父亲”词条的所有文档;将实体关系抽取技术应用到信息检索后,会直接输出结果是“姚志源”。
现有的实体关系抽取方法,对输入的标注了两个实体的句子直接建模提取用于实体关系分类的特征并将提取的特征输入到实体关系分类器中;但是这些方法对句子中的所有词一视同仁,因此,句子中对实体关系分类贡献小的词会引入噪声,比如上面例句中“他也十分热爱篮球”对实体关系分类贡献就小,但是将其建模并提取其特征输入到实体关系分类器中,就会对实体关系分类产生负面影响;为了解决现有实体关系抽取方法对句子中所有词一视同仁带来的噪声问题,我们启发式的假设句子中对实体关系抽取贡献大的词为“触发词”,即触发词是句子中能够直接或间接表达两个实体间关系的词或词组,比如上面例句中“父亲”就是触发词。提出了一种识别句子中触发词的方法。
将识别句子中触发词的方法与实体关系抽取方法融合,即我们提出一种融合触发词识别特征的实体关系抽取方法。先对数据集中句子标注触发词,用于训练一个能识别句子中触发词的模型。然后将识别触发词的模型与实体关系抽取模型融合用于实体关系抽取;我们的方法显著的提高了实体关系抽取的性能。
发明内容
本发明的目的在于针对现有的实体关系抽取方法对句子中的所有词一视同仁而带来的噪声问题,提出了一种融合触发词识别特征的实体关系抽取方法。
所述融合触发词识别特征的实体关系抽取方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
1.一种融合触发词识别特征的实体关系抽取方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
步骤1:提取句子中触发词的特征;
步骤1.1:对数据集中的句子标注触发词,输出标注触发词后的数据集;
其中,数据集包括训练集和测试集;
步骤1.1具体包括以下子步骤:
步骤1.1.1:对数据集中含有触发词的句子,使用大括号标注触发词,用于记录触发词在句子中的位置;
步骤1.1.2:对于数据集中不含有触发词的句子,打上omit标记;
步骤1.2:从步骤1.1输出的数据集的训练集中选取一个训练样本(Sh,lh),对句子Sh进行分类再计算该句子的标签向量v;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212651.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电连接器
- 下一篇:一种利用附加阻尼抑制电网低频振荡的方法、装置及系统