[发明专利]一种新型的半监督文本实体信息抽取方法有效
| 申请号: | 201911369784.4 | 申请日: | 2019-12-26 |
| 公开(公告)号: | CN111274814B | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 寿黎但;王珏;陈珂;陈刚;伍赛;骆歆远 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新型 监督 文本 实体 信息 抽取 方法 | ||
1.一种新型的半监督文本实体信息抽取方法,其特征在于:方法包括以下步骤:
(1)在众多文档上进行短语分割,由一个文档中的所有短语构成一个短语集合,得到短语集合作为候选实体集合;
对一部分文档中的短语进行标注形成有标注的文档,具体标注出短语、短语是否为实体以及实体类型,对另一部分文档中的短语不进行标注形成无标注的文档;
(2)建立实体抽取模块和类型选择模块:实体抽取模块将文档和一实体类型作为输入,输出该实体类型对应的实体信息的概率分布;类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入,输出该短语所属实体类型的概率分布;
(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型,在有监督学习部分对于有标注的文档进行有监督学习,在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习;
有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块;
有监督学习部分中,文档和标注实体类型输入到实体抽取模块,输出该实体类型对应的实体信息的概率分布;文档和标注短语输入到类型选择模块,输出该短语所属实体类型的概率分布;实体抽取模块和类型选择模块的输出分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值,将两个模块的损失值相加作为有监督学习损失;
无监督学习部分中,文档输入到实体抽取模块,并依次输入所有实体类型,输出文档中各个词是否组成各个实体类型的概率,计算采样短语与每个实体类型输出的概率分布之间的损失值;文档和候选实体集合中采样的一个短语输入到类型选择模块,输出该采样短语所属实体类型的概率分布;实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失,将所有实体类型的初步损失相加构成无监督学习损失loss,表示为:
其中,ri表示短语所属第i个实体类型的概率,i表示实体类型的序号,C表示实体类型的总数,lossi表示第i个实体类型的无监督学习损失;
将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失,然后对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数;
(4)针对待测的文本,将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果,进而获得该实体类型对应的短语,然后将文档以及该实体类型对应的短语输入到类型选择模块输出各个短语所属实体类型的概率分布,针对每个短语取最大概率的所属实体类型和实体抽取模块输入的实体类型进行比较:
若一致,则将该短语作为实体,输出该短语及其实体类型作为实体信息;
若不一致,则舍弃该短语,不作为实体。
2.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法,其特征在于:所述的实体抽取模块包括两个第一双向LSTM神经网络、第一自注意力机制神经网络和第一前馈神经网络,文档输入到第一个第一双向LSTM神经网络中,第一个第一双向LSTM神经网络输出经第一自注意力机制神经网络后输入到第二个第一双向LSTM神经网络中,实体类型同时输入到第二个第一双向LSTM神经网络,第二个第一双向LSTM神经网络的处理输出输入到第一前馈神经网络中,由第一前馈神经网络输出文档中各个词是否组成该实体类型的结果,由是组成该实体类型的词组成该实体类型对应的短语;
所述的类型选择模块包括两个第二双向LSTM神经网络、第二自注意力神经网络、注意力神经网络和第二前馈神经网络,文档输入到第一个第二双向LSTM神经网络中,第一个第二双向LSTM神经网络输出经第二自注意力神经网络后输入到第二个第二双向LSTM神经网络中,从该文档的候选实体集合采样的一个短语同时输入到第二个第二双向LSTM神经网络,第二个第二双向LSTM神经网络的处理的输出输入到注意力神经网络,注意力神经网络的处理输出输入到第二前馈神经网络中,由第二前馈神经网络输出该短语所属实体类型的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911369784.4/1.html,转载请声明来源钻瓜专利网。





