[发明专利]基于多特征信息增强的文本实体关系抽取方法有效

申请号：	202011026497.6	申请日：	2020-09-25
公开（公告）号：	CN112163425B	公开（公告）日：	2023-06-20
发明（设计）人：	孟佳娜;董宇;赵丹丹	申请（专利权）人：	大连民族大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F18/213;G06F18/25;G06N3/0464;G06N3/045;G06N3/0442;G06N3/047;G06N3/048
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	毕进
地址：	116600 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征信息增强文本实体关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多特征信息增强的文本实体关系抽取方法，其特征在于，包括：

S1.将文本映射为词特征，并与外部特征结合作为特征信息嵌入模型：通过one-hot对每个单词形成V*1的向量，整个词汇表则是V*V的矩阵，根据索引映射，将每个单词映射到d维空间，每个单词被映射成一个向量，所有单词的矩阵是V*d，每个单词与矩阵中的某列一一对应，

初始化一个d维空间的矩阵作为权重矩阵W'，权重矩阵的形状为V*d，作为中心词的向量v_c和背景词的向量通过公式(1)进行softmax层进行映射

再通过神经网络的方式学习更新，最终以Embedding形成句子级特征表示，

标记实体的上下文词，选取每个实体上文的一部分词L₁＝{l₁,l₂,l₃,...,l_n}和下文的一部分词L₂＝{l₁,l₂,l₃,...,l_n}进行特征表示，

将所有的特征都连接到词级特征向量中形成特征矩阵V*n，

计算每个word与两个entity的相对距离作为实体位置特征的表示，将特征通过Lookup-Table做Embedding操作，将其投影成低维向量，则每个相对距离都对应到一个低维实数向量，

将实体的位置特征、词特征和句子级特征进行特征融合，作为特征信息嵌入网络模型，

S2.通过卷积神经网络获得更高层的局部特征：

卷积神经网络由卷积层和最大池化层组成，通过h×k的卷积核在输入层自上而下移动，通过卷积核的特征提取，获得特征图，特征图列的维度为1，行的维度为n-h+1，再通过最大池化进行降维，获得特征中的最大值作为最终的特征，具体公式如下所示：

其中

S3.通过Bi-LSTM获得特征之间的依赖关系和上下文特征信息：

表示p时刻前向LSTM的输出结果，表示p时刻后向LSTM的输出结果，x_p表示p时刻的输入，h_p表示p时刻Bi-LSTM的输出结果，公式如下：

其中，w_p表示p时刻前向LSTM输出的权重的大小，v_p表示p时刻后向LSTM输出的权重的大小，b_p表示p时刻的偏置的大小，

S4.通过注意力机制关注重要的语义关系特征：

将Bi-LSTM捕获的长期依赖关系的序列特征，利用Attention机制对具有重要含义的特征进行加权，公式如下：

A＝tanh(w_ah_p+b_a) (8)

s_s＝softmax(A_pv_a) (9)

α_s＝∑s_sh_p (10)

其中，s_s表示Bi-LSTM在p时刻，隐藏状态h_p在各特征中的注意力权重系数的分值，对获得的s_s进行加权求和，得到的α_s表示经过注意力权值分配后的特征表示，最后将分配好权重的α_s进行线性变换，并将结果作为softmax分类器的输入，从而分配各个类的概率，选择其中最大的概率的那一个类别判定为最终的类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连民族大学，未经大连民族大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011026497.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种冷却塔填料性能实验检测系统
下一篇：基于CNN的方面级跨领域情感分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多特征信息增强的文本实体关系抽取方法有效

专利文献下载