[发明专利]非结构化文本事件抽取方法有效
| 申请号: | 202110934216.5 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113407660B | 公开(公告)日: | 2021-12-14 |
| 发明(设计)人: | 陶建华;吴家帆;张大伟;杨国花;刘通 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/335;G06F16/35;G06F40/14;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结构 文本 事件 抽取 方法 | ||
1.非结构化文本事件抽取方法,其特征在于,所述方法包括:
触发词分类阶段
S1:非结构化文本数据预处理,再对数据预处理后的非结构化文本进行文本的切分与分词,得到切分后的文本片段,再将文本片段进一步分割成单个词片段;
S2:通过查表的方式将分割好的单个词片段,转化成空间向量表示的词向量表示;实体类型编码向量、词性标签编码向量和位置标签编码向量是根据确定的维度随机初始化得到的;
实体类型编码向量、词性标签编码向量和位置标签编码向量的每个元素是随机值;
S3:将所述词向量表示、实体类型编码向量、词性标签编码向量和位置标签编码向量,按每个词的维度方向进行拼接,得到文本句子的原始特征表示;
S4:将所述原始特征表示输入文本特征提取网络,得到文本的深度特征表示;
S5:将所述深度特征表示输入多阶图注意力卷积网络,得到多阶句法的特征表示向量;
S6:应用注意力机制聚合所述多阶句法的特征表示向量,得到聚合多阶特征;
S7:应用一个全连接层网络对所述聚合多阶特征进行分类,得到当前词片段属于每种事件类别的概率值;
事件论元角色分类阶段
S8:将句子的词级别序列的聚合多阶特征拼接成隐层嵌入向量;
S9:应用动态多池化层作为特征聚合器,将所述隐层嵌入向量聚合,得到实例嵌入;
S10:对于特定的上位概念,使用可训练的上位概念向量表示其语义特征;采用了多层感知机来计算注意力分值;
S11:定义一个元素角色的k个上位概念,应用步骤S10计算k个上位概念的注意力分值,再计算k个上位概念的注意力分值的均值,得到面向角色的注意力分值;以所述面向角色的注意力分值作为权重,对隐层嵌入向量中所有隐层嵌入进行加权求和,得到面向角色的嵌入;
S12:将所述实例嵌入和面向角色的嵌入作为分类器的输入,估计给定实例嵌入的条件下,元素角色的概率。
2.根据权利要求1所述的非结构化文本事件抽取方法,其特征在于,所述文本特征提取网络采用双向长短时间记忆网络构建。
3.根据权利要求1所述的非结构化文本事件抽取方法,其特征在于,所述多阶句法的特征表示向量的具体计算方法为:
根据句法依存树路径的邻接矩阵A可以表示成第一阶句法图;邻接矩阵A可以得到其三个变换矩阵,分别是Aalong、Arev和Aloop;如果词片段wi和wj之间存在句法连接弧,那么Aalong(i,j)=1, 否则为0;而逆转矩阵Arev=ATalong,Aloop是单位矩阵;k阶邻接矩阵Aksubg的三个变换矩阵分别表示为A kalong、 Akrev和A k loop;将所述深度特征表示和所述k阶邻接矩阵Aksubg输入图注意力卷积网络,得到多阶句法的特征表示向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110934216.5/1.html,转载请声明来源钻瓜专利网。





