[发明专利]一种基于区分性词向量表示的事件检测方法有效
申请号: | 202110726463.6 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113282714B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 唐九阳;廖劲智;赵翔;李欣奕;谭真;陈盈果;黄魁华 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区分 向量 表示 事件 检测 方法 | ||
1.一种基于区分性词向量表示的事件检测方法,其特征在于,所述方法包括:
步骤1,构建区分性词向量表示模型,包括编码模块、高斯核函数模块和对抗学习模块,所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示,所述的高斯核函数模块,用于加大触发词内部组成单词与外部其他单词之间表示的差异性,所述的对抗学习模块,用于提升对触发词正样本的泛化识别能力;
步骤2,在所述的编码模块中,通过使用预训练BERT模型将句子的每个单词嵌入到高维向量空间中的上下文词向量表示中,以便提供包含语义特征的输入,同时,结合预定义事件类型的外部知识,进一步丰富单词表示中包含的信息;
步骤3,在所述的高斯核函数模块中,通过对编码后的词向量表示进行高斯核函数变换,利用高斯处理将词向量的分布约束在高斯分布中,以实现词向量在高维空间中的聚类,提升其对触发词和非触发词的差异性编码能力;
步骤4,在所述的对抗学习模块中,在训练时通过向词向量中加入随机扰动,促使模型更多地关注训练样本中有规律的语义信息,进而提升模型触发词正样本的泛化能力;
步骤5,利用训练好的区分性词向量表示模型,在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置,然后通过组合预测的开始位置和结束位置输出所有可能的触发词;
步骤6,根据触发词的预测结果进行文本中的事件检测。
2.根据权利要求1所述的一种基于区分性词向量表示的事件检测方法,其特征在于,在所述的编码模块中,基于BERT的语言表示模型被用作编码器,所述的BERT由12个相同的Transformer块的堆栈组成,每个块处理词嵌入、位置嵌入和段嵌入,在所有块依次计算出三种类型的嵌入之后,BERT输出它们的总和作为表示,同时,在编码模块中,利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制,只使用上层事件类别作为外部知识,将所有上层事件类别与每个句子连接起来,具体形式如下:
[CLS]sentence[SEP]UT1[SEP]…[SEP]UTm[SEP],
其中,[CLS]表示BERT中起始位置标记,sentence表示输入的特定句子,[SEP]表示BERT中间隔符标记,UT是upper-type的缩写,表示事件的上层类型,m是数据集中的上层事件类别的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110726463.6/1.html,转载请声明来源钻瓜专利网。