[发明专利]一种事件抽取方法和装置在审
| 申请号: | 202010338139.2 | 申请日: | 2020-04-26 |
| 公开(公告)号: | CN111581346A | 公开(公告)日: | 2020-08-25 |
| 发明(设计)人: | 徐猛 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/951;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;龙洪 |
| 地址: | 200232 上海市徐*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 事件 抽取 方法 装置 | ||
1.一种事件抽取方法,其特征在于,所述方法包括:
获得语句的向量化语义表示W1;
通过条件随机场CRF对所述向量化语义表示W1进行论元识别,并根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;其中,所述论元标记包括:一个或多个序列BIO标注;
对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的触发词-论元对;
获取全部正确的触发词-论元对,以实现事件的抽取。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述获得语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。
3.根据权利要求2所述的事件抽取方法,其特征在于,在通过双向LSTM网络获得语句的向量化语义表示W1之前,所述方法还包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
4.根据权利要求2所述的事件抽取方法,其特征在于,通过BERT模型获得语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
5.根据权利要求1所述的事件抽取方法,其特征在于,所述方法还包括:
预先将触发词类型划分为x种,将事件的论元类型划分为z种,将所述触发词类型以及所述事件的论元类型以外的类型作为其他类型other;其中,x、z均为正整数;
在获得语句的向量化语义表示W1之前,进行以下操作:
触发词标记:根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于触发词;在当前span属于触发词时,将当前span标记为划分出的x种触发词类型中的一种;在当前span不属于触发词时,将当前span标记为其他类型O;
论元标记:对语句中每个标记token进行BIO标注,BIO标注的类型包括:B-[论元类型]、I-[论元类型]和O;
触发词-论元标记:对每个标记后的span和标注后的论元进行两两结合,并标记结合后的span和论元是否为触发词-论元对。
6.根据权利要求1或5所述的事件抽取方法,其特征在于,所述通过条件随机场CRF对所述向量化语义表示W1进行论元识别包括:
将所述向量化语义表示W1进行线性变换,获取变换后的矩阵;
将所述变换后的矩阵输入条件随机场CRF中,通过CRF输出所述向量化语义表示W1所表示的语句中的每个字对应的BIO标注;
根据语句中的每个字对应的BIO标注识别出语句中的全部论元;
获取每个论元在语句中的位置,并根据该位置的语义表示获取相应论元的语义表示,获取语句中全部n_arg个论元的语义表示W2,实现论元识别;其中,W2的维度为[n_arg,D1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010338139.2/1.html,转载请声明来源钻瓜专利网。





