[发明专利]一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质在审
申请号: | 201810587061.0 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108959418A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 黄杨琛;黄九鸣;贾焰;韩伟红;周斌;徐菁;张圣栋;李爱平;杨朝辉;赫中翮;王志超;周忠诚;曾琰;黄谦;李靖;李丹 | 申请(专利权)人: | 中国人民解放军国防科技大学;湖南星汉数智科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人物关系 句子 抽取 计算机可读存储介质 计算机装置 标签数据 关系分类 自然语言处理技术 知识库 自然语言文本 抽取装置 关系指示 过滤算法 人工设计 特征提取 因子特征 对齐 语料库 准确率 向量 预设 过滤 应用 监督 | ||
本发明涉及自然语言处理技术领域,提供了一种人物关系抽取方法,包括:通过对齐知识库与语料库中的自然语言文本数据,生成包含人物对的弱标签数据集;将弱标签数据集中属于同一人物对的第一句子标记为同一人物对关系的正例包;根据预设的关系指示词的过滤算法,过滤正例包中的所述第一句子,获得训练正例数据;将训练正例数据以及负例包中的第二句子进行特征提取,获得第二句子的多因子特征向量后,并输入到关系分类器中,利用有监督方法获取人物对的关系分类结果。本发明实施例还提供一种人物关系抽取装置、计算机装置及计算机可读存储介质。本发明实施例提供的人物关系抽取方法,提高了人物关系抽取的准确率,无需人工设计复杂模板,应用更广。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质。
背景技术
在互联网产生的爆炸式增长的电子文本信息中,大量人物实体以及他们之间的关系信息涵盖其中。面对如此多元异质的数据,必须采用信息抽取技术才能满足人们从中快速获取有效信息的需求。关系抽取作为信息抽取的一项重要任务,第一次正式提出是在1998年的第七届消息理解大会(Message Understanding Conference,MUC)上,它是指从自然语言文本当中发现和识别两个实体之间的语义关系的过程。
实体关系抽取技术突破了传统的经过人工阅读、理解的方式来获得语义关系的限制,取而代之的是语义关系的自动查找和抽取。作为自然语言处理中的热门研究领域,实体关系抽取一直是信息抽取研究领域的重要方向。关系抽取的早期研究主要是通过人工建立语法和语义规则,然后通过模式匹配的方法来识别实体的关系。由于这些方法需要大量的人工处理和专业知识的前期准备,研究人员开始尝试机器学习方法。
根据对标注数据的依赖程度,基于机器学习的关系抽取方法可分为有监督学习、半监督学习、远程监督学习及无监督学习的方式。有监督学习方法将关系抽取作为一个分类问题,根据训练数据设计有效的特征,然后构造各种分类模型,最后使用训练好的分类器来预测关系。在特征选择上,可以结合词汇、句法、语义等特征来训练关系分类器,还可以加入语法分析树和依存关系树来形成特征向量,此外还有研究加入了关系特征词的位置信息特征来进行关系分类。另外,为了避免人工设计特征工程,学者们开始利用神经网络结构来自动学习自然语言文本特征然后进行实体关系抽取,这类深度学习方法也属于有监督方法。有监督的关系抽取系统准确率和召回率都很高,但是严重依赖于事先制定好的关系类型体系和标注数据集。尤其深度学习的方法,由于神经网络本身的特点,需要大量的训练数据才能得到较好的分类网络模型。半监督的学习方法主要采用Bootstrapping、标签传播等方式来进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。
与有监督的方法相比,半监督的方法可以大大减少学习过程中需要的标注语料库的规模,但是初始种子集的选取问题,以及迭代过程中噪声的干扰问题等处理不好会影响该方法的实际性能。而无监督的开放式关系抽取方法是假设拥有相同语义关系的实体对拥有相似的上下文信息,从而利用每个实体对应的上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。无监督实体关系抽取无需预先定义实体关系类型体系,具有领域无关性,这在处理海量开放领域数据时很有优势,但其聚类阈值难以事先确定,抽取结果的准确率较低,并且目前仍缺乏较客观的评价标准。
近年来,各种大型知识库(Knowledge Base,KB),如Freebase,DBpedia,YAGO以及在线百科知识库已建成,这对于构造有监督机器学习方法的训练数据有极大的价值。Mintz等人于2009年首次在关系抽取领域提出远程监督(Distant Supervision,DS)的思想。远程监督方法假设,如果两个实体在知识库中是有关系的,那么所有包含这两个实体的句子都将表达这种关系。基于远程监督的关系抽取自发地对齐自然语言文本和给定的知识库,然后使用对齐的结果产生的弱标签训练数据来学习关系提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学;湖南星汉数智科技有限公司,未经中国人民解放军国防科技大学;湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810587061.0/2.html,转载请声明来源钻瓜专利网。