[发明专利]一种基于弱监督学习的联合信息抽取方法在审

专利信息
申请号: 201911100130.1 申请日: 2019-11-12
公开(公告)号: CN110826303A 公开(公告)日: 2020-02-21
发明(设计)人: 宫法明;司朋举;李昕;马玉辉;唐昱润 申请(专利权)人: 中国石油大学(华东)
主分类号: G06F40/169 分类号: G06F40/169;G06F40/279;G06F16/35;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 266580 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 联合 信息 抽取 方法
【说明书】:

发明涉及一种基于弱监督学习的联合信息抽取方法,属于自然语言处理领域。本发明为了解决基于有监督学习的信息抽取所造成的数据集标注耗时费力,以及双子任务(信息抽取通常分为两个子任务,实体识别和关系抽取)造成的误差传播问题。我们的信息抽取方法通过将信息抽取转化为序列化数据标注的任务,结合知识表示学习方法,采用联合信息抽取的形式,利用公开知识库结合少量数据集,实现弱监督学习联合信息抽取。我们希望训练一个可以对文本进行更准确的信息抽取模型。通过弱监督学习结合联合信息抽取的策略,经过端到端网络的训练,提高信息抽取的准确率和召回率,与当前的信息抽取方法相比在性能方面有了实质性的改进。

技术领域

本发明属于自然语言处理领域,具体涉及到一种基于弱监督学习的联合信息抽取方法。

背景技术

随着互联网的快速发展,使用人群数量的快速增长,互联网已经给成为了当前规模最大的、内容最丰富且可用的信息源。但是由于互联网数据缺乏语义相关的信息,计算机或程序无法理解这些丰富的数据资源,特别是非结构化的信息。而信息抽取一直是自然语言处理领域的一个重要研究课题,能够将文本中包含的信息进行结构化处理,变成类似表格样式的组织形式,输入信息抽取系统的是原始文本,包含了网页数据和单独的纯文字等内容,输出了固定格式的有效信息点,信息点是从各种各样的文本中抽取出来,随后以统一的格式集成在一起。显然,信息抽取技术可以抽取出有效知识用于构建基于知识的服务。

传统的信息抽取方法需要对实体关系的类型进行预先定义,随后需要人工标注训练集,最后采用机器学习的方法训练分类器进行实体识别和关系抽取。这样就产生了以下问题,对实体关系的预先定义不可能是全面的,且人工构建大规模的训练集是非常耗时费力的。虽然目前国内外研究者在信息抽取的子任务,即命名实体识别和关系抽取,上取得了突破性进展,但是对非结构化文本提取有效信息始终需要分两步进行,即先命名实体识别,再进行关系抽取,或者先进行关系抽取再进行命名实体识别。但是不管这两个子任务以如何顺序进行,都逃脱不了第一个子任务对第二个子任务的误差传播,最后直接影响到了信息抽取的准确率。

发明内容

针对上述问题,本发明提出一种基于弱监督学习的联合信息抽取方法,结合知识表示学习方法,采用联合信息抽取的形式,利用公开知识库结合少量数据集,使得信息提取器的对非结构化文本的提取准确性提高。本发明的具体步骤如下:

S1,预处理通过网络爬虫获取到的文本信息,剔除掉无用信息,并和外部知识库文本对齐,进行自动标注;

S2,对自动标注的文本集进行筛选,对得到的部分文本采用基于序列化标注的Mutiple-BIO标注法进行标注;

S3,将S1和S2生成的数据集分为训练集和测试集,将训练集转换为嵌入向量形式,此步骤中预训练模型采用了表示学习中静定的TransE模型;

S4,使用双向长短期记忆神经网络对向量进行编码,有效地捕获每个词语的语义信息;

S5,使用LSTM解码层生成预测标签序列;

S6,将上步骤产生的标签预测向量,输入Softmax层,结合TransE链接预测概率,进行标签分类,输出该实体标签的概率;

S7,通过最大化以在某一句子条件下预测标签和真实标签相等的概率为底的对数,进行迭代优化目标函数,得到准确率更高的信息提取器。

本发明的技术方案特征和改进为:

对于步骤S2,本发明采用基于序列化标注的Mutiple-BIO标注法对步骤S1中的部分数据进行手工标注,每个单词都被分配了一个有助于提取信息的标签,与提取结果无关的单词标记为“O”,其他标记由实体中的单词位置、关系类型和关系角色三部分组成,若某个实体属于多个三元组,则该实体包含了多个上述的三部分,以并列方式存在。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911100130.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top