[发明专利]实体关系提取方法有效

专利信息
申请号: 201810639503.1 申请日: 2018-06-20
公开(公告)号: CN108959474B 公开(公告)日: 2021-12-28
发明(设计)人: 贾维嘉;张新松;李鹏帅;刘天一 申请(专利权)人: 上海交通大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 上海思微知识产权代理事务所(普通合伙) 31237 代理人: 屈蘅
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 关系 提取 方法
【说明书】:

发明提供了一种实体关系提取方法,所述实体关系提取方法先根据实体的描述信息标注数据集中的负样本,以将所述负样本划分为真正的负样本和无法确定的样本;接着,赋予所述无法确定的样本关系标签,以构造新的训练集;最后,根据双向门控循环单元对新的训练集进行关系特征提取,以获得实体关系。通过根据实体的描述信息标注数据集中的负样本,有效的优化了数据集;通过赋予所述无法确定的样本关系标签来构造新的训练集,以提高训练集的准确性,进而提高了提取实体的关系的精准度。

技术领域

本发明涉及信息抽取技术领域,特别涉及一种实体关系提取方法。

背景技术

关系抽取从纯文本中获取知识三元组是最直接的方法,其原理是通过对于实体对及其所在的句子建模分析后给出准确的关系预测。例如,对句子“Steve Jobs was the co-founder and CEO of Apple and Pixar”中的“Steve Jobs”和“Apple”进行关系抽取得到的结果应该是知识三元组[Steve Jobs,Founder,Apple]。传统的关系提取模型都是基于有监督的学习算法,然而有监督学习的关系抽取方法都需要高质量的人工标注训练集,无法实现完全的关系自动化抽取。为了突破关系抽取中关系类别的限制,Stanford的Mintz等人在2009年提出了远程监督的方法实现不需要人工标注的关系提取。远程监督的方法是指用现有的知识库作为先验知识进行关系数据集的标注。假设一个知识三元组K在知识库中存在,并且K中的两个实体[a,b]都出现在了句子S中,那么S被标注为知识三元组K的一个实例。远程监督以此构建训练数据,省去了人工标注数据集的工作,并且能够大大的扩展关系提取的边界。然而,远程监督的方法有明显的缺陷,在很多情况下,其基本假设并不成立,也就是会有所谓的错误标注[缺点]问题。例如,在句子“Steve Jobs passed away the daybefore Apple unveiled iPhone 4S in2011”中同样包含“Steve Jobs”和“Apple”,然而该句话并不表达“Founder”的关系。为了解决错误标注问题,Riedel和Hoffmann分别提出了两种多实例学习的解决方案。多实例学习是指将对句子的标注改为对“句袋”的标注,实际训练时以“句袋”中最可能正确标注的句子进行指导训练。在多实例学习的基础上,Surdeanu提出了多实例多标签学习,目的给“句袋”标注更多的标签以更加符合实际情况。Angeli结合了部分监督的主动学习算法解决远程监督关系提取问题。在此之后,很多学者给出了诸多其他解决方案,例如利用矩阵变换的算法,利用马尔科夫逻辑的算法,等等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810639503.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top