[发明专利]一种新型的半监督文本实体信息抽取方法有效
申请号: | 201911369784.4 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111274814B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 寿黎但;王珏;陈珂;陈刚;伍赛;骆歆远 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新型 监督 文本 实体 信息 抽取 方法 | ||
本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合;建立有、无监督学习部分,有、无标注的文档分别有、无监督学习;文档和实体类型输入实体抽取模块输出实体信息;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相加为损失;文档输入实体抽取模块获得每个实体类型的损失;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相乘后相加构成损失;两部分加权计算获得总损失,优化训练获得模型参数;将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据,显著增强模型性能,在小样本标注数据的条件下有着显著的提升,也适用于零样本学习的半监督文本数据处理。
技术领域
本发明涉及计算机领域下的自然语言处理技术的一种半监督文本数据处理方法,尤其涉及一种基于自我学习机制的半监督文本实体抽取方法。
背景技术
文本实体抽取方法是信息抽取方法和任务导向对话系统中的重要的组成部分,其旨在从给定的文本中抽取文本实体,通常包括命名实体、数字表达式、时间表达式等。目前,文本实体抽取通常被解释为序列标注任务,主要以基于深度学习的方法为主,但是深度学习方法需要大量的标注数据来保证模型的准确率。由于实际应用场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的一大挑战。
半监督学习能够缓解标注数据不足的问题,是同时利用标注数据和无标注数据,通过大量无标注数据来弥补标注数据的不足。目前主要的方法在无标注语料上训练词向量或语言模型,再迁移有标注数据上进行训练。但是这类方法仍然不能有效地学习领域内知识。
发明内容
本发明的目的在于针对现有技术的不足,提供一种新型的新型半监督文本实体抽取方法,能够有效地利用领域内无标注数据,在少量标注数据下准确率有显著的提升,也可适用于零样本学习的半监督文本数据处理。
如图1所示,本发明解决其技术问题采用的技术方案如下:
(1)在大量的众多文档上进行短语分割,由一个文档中的所有短语构成一个短语集合,得到短语集合作为候选实体集合;对一部分文档中的短语进行标注形成有标注的文档,具体标注出短语、短语是否为实体以及实体类型,对另一部分文档中的短语不进行标注形成无标注的文档;有标注的文档是文档中已经标注有短语、该短语是否为实体、以及实体的类型。
(2)建立实体抽取(EE)模块和类型选择(TS)模块:实体抽取模块将文档和一实体类型作为输入,输出该实体类型对应的实体信息的概率分布;类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入,输出该短语所属实体类型的概率分布;
(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型,在有监督学习部分对于有标注的文档进行有监督学习,在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习;有监督学习部分独立地训练实体抽取模块和类型选择模块,无监督学习部分结合有监督学习部分训练实体抽取模块和类型选择模块。
有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块;
有监督学习部分中,已有文档、该文档包含并标注为实体的一个短语、该标注短语对应的标注实体类型,文档和标注实体类型输入到有监督学习部分的实体抽取模块,输出该实体类型对应的实体信息的概率分布;文档和标注短语输入到有监督学习部分的类型选择模块,输出该短语所属实体类型的概率分布;实体抽取模块和类型选择模块的输出通过交叉熵分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值,将两个模块的损失值相加作为有监督学习损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911369784.4/2.html,转载请声明来源钻瓜专利网。