[发明专利]一种中文事件触发词抽取方法及装置有效

专利信息
申请号: 202110647875.0 申请日: 2021-06-10
公开(公告)号: CN113468884B 公开(公告)日: 2023-06-16
发明(设计)人: 杨昊;赵刚;王兴芬 申请(专利权)人: 北京信息科技大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/211;G06F40/30;G06F40/216;G06N3/045;G06N3/0442
代理公司: 北京天方智力知识产权代理事务所(普通合伙) 11719 代理人: 路远
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 事件 触发 抽取 方法 装置
【权利要求书】:

1.一种中文事件触发词抽取方法,其特征在于,包括以下步骤:

对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;

对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;

将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;

将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取;

节点注意力网络的输出为:

eij=LeakyReLU(vτ[Wτhi,Wτhj])

式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量;

对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于maskattention机制依次实现以下4个步骤的网络特征传播:

VC→VW

VW→VS

VS→VW

VW→VC

其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为

网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即其中,h′、hi分别为当前传播步骤的输出和输入,为下一传播步骤的输入。

2.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,类型注意力网络的输出为:

式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ为的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。

3.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,条件随机场的损失函数为:

Loss=-log10(p(Y|X))

式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2…,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,为标注集合,Y′为任意一个标注,为初始转移得分,为结尾转移得分,为由yi-1转移到yi的得分,为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110647875.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top