[发明专利]一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法在审
申请号: | 202110480675.0 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113326371A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 李书棋;高阳 | 申请(专利权)人: | 南京大学;江苏万维艾斯网络智能产业创新中心有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/383;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 房小颖 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 训练 语言 模型 噪声 干扰 远程 监督 信息 事件 抽取 方法 | ||
1.一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,其特征在于,包括如下步骤:
步骤1、训练数据语料采集,通过爬虫获取的互联网文本数据,将文本形式的数据通过爬虫以.txt文件形式进行存储;
步骤2、对标注数据进行预处理操作;
步骤3、根据事件定义对文本进行标注,并将标注的数据补充加入远程监督知识库,完成数据的标注,并按照7:1:2的比例分为训练集、验证集和测试集;
步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建;
步骤5、使用训练数据进行事件抽取模型的训练,并通过验证数据集和测试数据集评估训练的好坏,通过多轮的迭代,选择表现最优的模型进行使用;
步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取,对新的文本在经过数据预处理清洗后,先将其与远程监督知识库进行匹配,将同时在远程知识库和新的待预测文本中出现的触发词,加入到文本的远程特征当中,输入模型预测事件的触发类型和相关的事件参与元素。
2.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,所述事件抽取模型的构建具体步骤为:
通过自注意力机制进行语言建模,使用多头注意力捕捉文本中多角度的特征信息;
通过一个双层的神经网络FFN进行特征转换提取,采用ReLU做为激活函数层,并使用层归一化进行特征归一化处理;
利用残差连接的方式结合预训练模型的各个层,通过循环迭代,得到预训练模型提取的特征;
将远程监督触发词出现的位置使用该触发词在远程监督库中的类型编号进行标注,得到一个离散的序列特征,通过远程监督嵌入层,映射到低维空间;
将预训练模型提取的特征和远程监督特征进行拼接;
在远程监督嵌入层进行学习和参数更新的过程中,加入梯度方向的扰动,计算模型反向传播在远程监督特征嵌入层的梯度;
保留远程监督特征嵌入层原始参数,使用得到的扰动步长添加对抗扰动,再重新进行一次前向和反向传播,得到新的梯度;
恢复远程监督特征嵌入层原始参数,使用添加扰动后的新梯度进行模型整体参数更新;
重复多次训练过程,选取结果最优的模型进行使用;
将新的互联网文本数据通过预处理,输入模型;
预测是否出现事件,检测出现事件时,提取结构化事件元素。
3.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,所述预处理操作包括去除html标签和特殊符号,将文本以句子或段落的形式进行分割为短文本。
4.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,所述步骤3进一步为:根据事件定义对文本存在事件的事件触发词、主体、客体、时间、地点、事件类型进行标注,并将标注的数据补充加入远程监督知识库,完成数据的标注;将标注后的数据和远程监督知识库进行匹配,将匹配成功的触发词加入当前样本的远程监督信息中,并按照7:1:2的比例分为训练集、验证集和测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏万维艾斯网络智能产业创新中心有限公司,未经南京大学;江苏万维艾斯网络智能产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110480675.0/1.html,转载请声明来源钻瓜专利网。