[发明专利]一种中文事件触发词抽取方法及装置有效
| 申请号: | 202110647875.0 | 申请日: | 2021-06-10 |
| 公开(公告)号: | CN113468884B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 杨昊;赵刚;王兴芬 | 申请(专利权)人: | 北京信息科技大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/30;G06F40/216;G06N3/045;G06N3/0442 |
| 代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 路远 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 事件 触发 抽取 方法 装置 | ||
1.一种中文事件触发词抽取方法,其特征在于,包括以下步骤:
对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取;
节点注意力网络的输出为:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量;
对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于maskattention机制依次实现以下4个步骤的网络特征传播:
VC→VW:
VW→VS:
VS→VW:
VW→VC:
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即其中,h′、hi分别为当前传播步骤的输出和输入,为下一传播步骤的输入。
2.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,类型注意力网络的输出为:
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ为的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
3.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2…,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,为标注集合,Y′为任意一个标注,为初始转移得分,为结尾转移得分,为由yi-1转移到yi的得分,为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110647875.0/1.html,转载请声明来源钻瓜专利网。





