[发明专利]一种基于自训练与噪声模型的因果事件抽取方法有效
申请号: | 202010397785.6 | 申请日: | 2020-05-12 |
公开(公告)号: | CN111651983B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 丁效;刘挺;秦兵;廖阔 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 噪声 模型 因果 事件 抽取 方法 | ||
1.一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述方法具体过程为:
步骤一、收集已标注的目标领域文本,或对目标领域的无标注文本进行标注,标注出因果事件对,标注时,采用序列标注任务的标注方法,为文本中每个单词标记一个标签,表示该单词属于原因事件、结果事件或其他成分;
步骤二、先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示;
步骤三、使用条件随机场模型,由步骤二中的向量表示计算出概率最大的标签序列;
步骤四、利用步骤一中已标注的目标领域文本或对目标领域的无标注文本进行标注的文本数据训练步骤三中的条件随机场模型,并对步骤二中的模型进行微调;
所述步骤二中的模型为预训练词向量矩阵和神经网络模型;
步骤五、搜集同领域大量无标注文本数据,先用已有的分词工具对搜集的同领域大量无标注文本数据进行分词,得到自标注文本分词后的单词序列,利用步骤四中训练好的模型对同领域大量无标注词语进行标注,得到大量自标注数据;
所述步骤四中训练好的模型为训练好的步骤二中预训练词向量矩阵、神经网络模型,以及步骤三中的条件随机场模型的整体;
步骤六、对步骤五中自标注文本分词后的单词序列,使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词wi计算一个向量表示并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率;
步骤七、使用全连接神经网络,由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵;
步骤八、使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率,并乘以步骤六中由单词序列生成任意标签序列的概率,得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率;
步骤九、使用步骤一中有标注数据与步骤五中自标注数据共同训练步骤二、三、七、八中的整体模型;
所述步骤二、三、七、八中的整体模型为包括步骤二中的模型、步骤三中的模型、步骤七中的模型和步骤八中的模型的整体;
步骤二中的模型为预训练词向量矩阵、神经网络模型;
步骤三中的模型为条件随机场模型;
步骤七中的模型为神经网络模型;
步骤八中的模型为另一个条件随机场模型。
2.根据权利要求1所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤一中序列标注任务的标注方法为采用BIO或BIOES标注规范。
3.根据权利要求1或2所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤二中先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示;具体过程为:
从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量,并将分词后有标注文本中的每个单词对应的词向量输入一个神经网络得到每个单词融合上下文信息的向量表示;
所述神经网络为循环神经网络、长短时记忆网络或基于自注意力机制的神经网络;
具体过程为:
先用已有的分词工具对步骤一中有标注文本进行分词,对于步骤一中有标注文本进行分词后的具有n个单词{w1,...,wi,...,wn}的文本s,从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量{e1,...,ei,...en},之后,使用深度神经网络计算出每个单词考虑上下文信息的向量表示{h1,...,hi,...hn},其中hn=F(e1,...,ei,...en),函数F为BERT深度神经网络结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010397785.6/1.html,转载请声明来源钻瓜专利网。